12 月 17 日消息,微软在 GitHub 上发布了名为 MarkItDown 的开源 Python 库,可以将 Office 文档在内的多种文件格式,转换为 Markdown 格式。
用户通过该工具转换后,有助于文本索引、分析等多种应用场景,并支持开发者利用大型语言模型进行图像描述。
IT之家附上 MarkItDown 库当前支持的文件格式如下:
-
PDF (.pdf)
-
PowerPoint (.pptx)
-
Word (.docx)
-
Excel (.xlsx)
-
Images (EXIF metadata, and OCR)
-
Audio (EXIF metadata, and speech transcription)
-
HTML (special handling of Wikipedia, etc.)
-
其它各种文本格式 (csv, json, xml, etc.)
开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:
from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(mlm_client=client, mlm_model="gpt-4o") result = md.convert("example.jpg") print(result.text_content)
由于 MarkItDown 库在 MIT 开源许可下可用,因此开发人员可以自由使用、修改和分发它,唯一的要求是他们在分发时包含原始许可证和版权声明。