Source: The Verge
微软宣布推出新版本的小型语言模型 Phi-3,能够查看图片并告诉您其中包含的内容。Phi-3-vision是一种多模态模型,可以同时阅读文本和图片,最适合在移动设备上使用。微软表示,目前处于预览阶段的 Phi-3-vision 是一个包含42亿参数的模型,可执行一般的视觉推理任务,如对图表或图片提问。
不过,与 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion 等以图像为重点的 AI 模型相比,Phi-3-vision 规模要小得多。与那些模型不同,Phi-3-vision 不生成图像,但可以理解图片中的内容并为用户进行分析。微软在四月份发布了 Phi-3,并随之发布了规模最小的 Phi-3 模型 Phi-3-mini,拥有38亿参数。
Phi-3 系列还有另外两款成员:Phi-3-small(70亿参数)和 Phi-3-medium(140亿参数)。随着对更具成本效益和计算资源消耗较少的 AI 服务需求增长,AI 模型开发人员一直在发布小型、轻量级的 AI 模型,如 Phi-3。这些小型模型可用于在手机和笔记本电脑等设备上支持 AI 功能,而无需占用太多计算机内存。
微软已经发布了其他小型模型,除 Phi-3 和其前身 Phi-2 外,还发布了数学问题解决模型 Orca-Math,据报道,它在回答数学问题方面胜过谷歌的 Gemini Pro 等较大型模型。Phi-3-vision 目前处于预览阶段,Phi-3 系列的其他成员——Phi-3-mini、Phi-3-small 和 Phi-3-medium——现已通过 Azure 模型库提供。
AI 模型领域竞争激烈,微软的 Phi-3-vision 小型语言模型在图像分析领域表现亮眼,展示了微软在人工智能领域的实力和创新。