• 微头条

    让本地生活更美好

打开APP

微软发布可查看图片的小型语言模型 Phi-3-vision

2024-05-21 外星人S博士
微软发布可查看图片的小型语言模型 Phi-3-vision

Source: The Verge

微软宣布推出新版本的小型语言模型 Phi-3,能够查看图片并告诉您其中包含的内容。Phi-3-vision是一种多模态模型,可以同时阅读文本和图片,最适合在移动设备上使用。微软表示,目前处于预览阶段的 Phi-3-vision 是一个包含42亿参数的模型,可执行一般的视觉推理任务,如对图表或图片提问。

不过,与 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion 等以图像为重点的 AI 模型相比,Phi-3-vision 规模要小得多。与那些模型不同,Phi-3-vision 不生成图像,但可以理解图片中的内容并为用户进行分析。微软在四月份发布了 Phi-3,并随之发布了规模最小的 Phi-3 模型 Phi-3-mini,拥有38亿参数。

Phi-3 系列还有另外两款成员:Phi-3-small(70亿参数)和 Phi-3-medium(140亿参数)。随着对更具成本效益和计算资源消耗较少的 AI 服务需求增长,AI 模型开发人员一直在发布小型、轻量级的 AI 模型,如 Phi-3。这些小型模型可用于在手机和笔记本电脑等设备上支持 AI 功能,而无需占用太多计算机内存。

微软已经发布了其他小型模型,除 Phi-3 和其前身 Phi-2 外,还发布了数学问题解决模型 Orca-Math,据报道,它在回答数学问题方面胜过谷歌的 Gemini Pro 等较大型模型。Phi-3-vision 目前处于预览阶段,Phi-3 系列的其他成员——Phi-3-mini、Phi-3-small 和 Phi-3-medium——现已通过 Azure 模型库提供。

AI 模型领域竞争激烈,微软的 Phi-3-vision 小型语言模型在图像分析领域表现亮眼,展示了微软在人工智能领域的实力和创新。

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://www.theverge.com/2024/5/21/24159282/microsoft-ai-small-language-model-phi-3-vision https://blogs.microsoft.com/blog/2024/05/20/introducing-copilot-pcs/ https://azure.microsoft.com/en-us/blog/introducing-phi-3-redefining-whats-possible-with-slms/
更多阅读