首页 > 生活感悟 > 免费教学 > 微软开源新工具MarkItDown,Office文件轻松转换为Markdown格式

微软开源新工具MarkItDown,Office文件轻松转换为Markdown格式

发布时间:2024-12-17 22:44:51来源: 15210273549

12 月 17 日消息,微软在 GitHub 上发布了名为 MarkItDown 的开源 Python 库,可以将 Office 文档在内的多种文件格式,转换为 Markdown 格式。

用户通过该工具转换后,有助于文本索引、分析等多种应用场景,并支持开发者利用大型语言模型进行图像描述。

IT之家附上 MarkItDown 库当前支持的文件格式如下:

  • PDF (.pdf)

  • PowerPoint (.pptx)

  • Word (.docx)

  • Excel (.xlsx)

  • Images (EXIF metadata, and OCR)

  • Audio (EXIF metadata, and speech transcription)

  • HTML (special handling of Wikipedia, etc.)

  • 其它各种文本格式 (csv, json, xml, etc.)

开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

由于 MarkItDown 库在 MIT 开源许可下可用,因此开发人员可以自由使用、修改和分发它,唯一的要求是他们在分发时包含原始许可证和版权声明。

免费教学更多>>

埃安霸王龙650智豪版VS宋PLUS EV520尊贵型,谁才是最佳出行搭子? 广汽零部件取得用于推杆式换挡器耐久试验的通用型换挡驱动机构和系统专利 特斯拉Model Y上新:FSD即将落地,AI智驾10倍安全,叫板小米YU7! 全新特斯拉Model Y上市!续航强、尺寸大,真的是电动SUV的未来吗? 《掌握这些相机拍照技巧,让你的照片脱颖而出》 2025新年南卡首款骨传导耳机发布,南卡Runner Air第一时间体验 i3默秒全再也看不到!AMD:Intel如今的CPU太差劲 导致我们不愁卖 传微软将携《光环》等游戏全力支持全新NS2主机 智能座舱与智能驾驶唱主角,车企国际消费电子展角逐智能化 从CES看AI风向:AI+产品层出不穷但实用性欠缺,自动驾驶日趋成熟 抖音更新了,全屏沉浸式模式给你一种全新的体验,鸿蒙Next版抖音 广州博冠取得直播中的交互方法及装置专利 全过程人民民主在上海|“民主的过程”(第二季)优秀短视频作品展播(五) 除夕车票开售在即,上京东搜“火车票”,PLUS会员领满99减5优惠 2025电商巨头纷纷布局!欧洲电商市场潜力解读 体验五菱星光S PHEV,续航1100km+四轮独悬,售9.98万起能买吗? 第一季度上市并交付, 国产全新宝马X3正式投产 2025长城汽车冰雪欢乐周:资深越野领导者教你如何玩转越野 吉利汽车与奇瑞汽车之争:谁能站稳自主厂商销量亚军位置? 长城汽车携核心车型与技术登陆CES 2025 12月厂商零售销量榜:比亚迪领衔,奇瑞第二,特斯拉排名提升 宁德时代与上汽集团再签约 零重力飞机工业与英武通航达成合作,发力eVTOL城市场景应用 太小气,黄子韬扬言送任何车型的车,结果是宝骏,仅5年使用权 关键时刻还得是长安汽车?你的长安在哪里? 实测本田思域,空间宽敞的运动轿车,1.5T地球梦发动机+优秀操控 帅呆!五羊本田NWG150真的来了,会成爆款吗? 同比大跌30.9%,本田中国2024年终端汽车销量852269辆 蝉联中国豪华品牌销量冠军,奔驰重申“坚守139年的长期主义” 比亚迪夏上市:2+2+3七座布局 1060公里续航