Source: The Verge
Google更新Gemini 1.5 Pro,此版本可收听上传的音频文件,并从收入电话或视频音频中提取信息,无需参考书面转录。该公司在Google Next活动中宣布将首次向公众开放Gemini 1.5 Pro,通过其构建AI应用的平台Vertex AI。Gemini 1.5 Pro最初于二月宣布。这个新版本的Gemini Pro,被称为Gemini家族中的中量级模型,性能已超越最大、最强大的模型Gemini Ultra。
Google表示,Gemini 1.5 Pro能理解复杂指令,并消除了微调模型的需要。普通人无法访问Vertex AI,无法使用Gemini 1.5 Pro。现在,大多数人是通过Gemini聊天机器人接触到Gemini语言模型。Gemini Ultra驱动Gemini高级聊天机器人,虽然功能强大,能理解长指令,但速度不如Gemini 1.5 Pro快。
除了Gemini 1.5 Pro,Google还对其另一大型AI模型Imagen 2进行了更新,这是用于Gemini图像生成能力的文本到图像生成模型,新增了填充和外推功能,让用户能够添加或删除图像元素。Google还将数字水印功能SynthID应用到所有通过Imagen模型创建的图片中,SynthID在查看时为图像添加了不可见的水印,以标记其来源,可通过检测工具查看。Imagen的许多新功能,尤其是填充和外推,已成为其他文本到图像模型如Stability AI的Stable Cascade和Getty的iStock生成AI的重要组成部分,不仅在新款三星Galaxy手机上得到更广泛的消费者使用。
Google还公开预览了一种将其AI响应与Google搜索连接的方法,从而使其以最新信息进行回答。这在大型语言模型产生的回答中并非常见,有时是有意的;Google故意让Gemini不回答与2024年美国选举相关的问题。Gemini最近还因生成具有历史不准确人物的照片而受到批评。
技术的发展为AI模型增加听觉功能,然而,在应用中也需谨慎处理历史准确性等问题。