微软发布可查看图片的小型语言模型 Phi-3-vision

2024-05-21 外星人S博士

Source: The Verge

微软宣布推出新版本的小型语言模型 Phi-3，能够查看图片并告诉您其中包含的内容。Phi-3-vision是一种多模态模型，可以同时阅读文本和图片，最适合在移动设备上使用。微软表示，目前处于预览阶段的 Phi-3-vision 是一个包含42亿参数的模型，可执行一般的视觉推理任务，如对图表或图片提问。

不过，与 OpenAI 的 DALL-E 或 Stability AI 的 Stable Diffusion 等以图像为重点的 AI 模型相比，Phi-3-vision 规模要小得多。与那些模型不同，Phi-3-vision 不生成图像，但可以理解图片中的内容并为用户进行分析。微软在四月份发布了 Phi-3，并随之发布了规模最小的 Phi-3 模型 Phi-3-mini，拥有38亿参数。

Phi-3 系列还有另外两款成员：Phi-3-small（70亿参数）和 Phi-3-medium（140亿参数）。随着对更具成本效益和计算资源消耗较少的 AI 服务需求增长，AI 模型开发人员一直在发布小型、轻量级的 AI 模型，如 Phi-3。这些小型模型可用于在手机和笔记本电脑等设备上支持 AI 功能，而无需占用太多计算机内存。

微软已经发布了其他小型模型，除 Phi-3 和其前身 Phi-2 外，还发布了数学问题解决模型 Orca-Math，据报道，它在回答数学问题方面胜过谷歌的 Gemini Pro 等较大型模型。Phi-3-vision 目前处于预览阶段，Phi-3 系列的其他成员——Phi-3-mini、Phi-3-small 和 Phi-3-medium——现已通过 Azure 模型库提供。

AI 模型领域竞争激烈，微软的 Phi-3-vision 小型语言模型在图像分析领域表现亮眼，展示了微软在人工智能领域的实力和创新。

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://www.theverge.com/2024/5/21/24159282/microsoft-ai-small-language-model-phi-3-vision https://blogs.microsoft.com/blog/2024/05/20/introducing-copilot-pcs/ https://azure.microsoft.com/en-us/blog/introducing-phi-3-redefining-whats-possible-with-slms/

更多阅读

微软发布可查看图片的小型语言模型 Phi-3-vision

犹他州启动10亿美元太阳能与电池储能项目（音频）

与中国有关的黑客攻击瞄准美国监听系统

WP Engine 对 Automattic 发出停止侵权通知，因 Mullenweg 言论引发争议（音频）

Nvidia全新应用将于年内取代GeForce Experience（音频）

自由软件基金会庆祝成立39周年

Sam Altman 否认获得 OpenAI 巨额股权，称是虚假消息（音频）

美国司法部起诉Visa垄断竞争支付平台

Duolingo推出便携式钢琴，以配合其音乐课程

研究显示汽车召回中软件修复占比超过20%（音频）

JBL发布新派对灯，能够与发光音响无线同步（音频）

哈佛大学学生利用Meta智能眼镜实时曝光他人信息（音频）

美国数据中心租赁提升商业地产发展新趋势

Pinterest推出新混合功能，助力创意拼贴板（音频）

Apple再次续订《Sugar》第二季，继续揭示悬疑故事（音频）

全球最大银行承诺支持核能发展的举措（音频）