Source: The Verge
Elon Musk的人工智能公司xAI正在努力为其Grok聊天机器人添加多模态输入,根据公开的开发者文件。这意味着很快,用户可能能够上传照片到Grok并收到基于文本的回答。开发者文件中,示例Python脚本演示了开发人员如何使用xAI软件开发工具包库生成基于文本和图像的响应。该脚本读取图像文件,设置文本提示,并使用xAI SDK生成响应。
对于xAI于2023年3月创立的AI模型Grok来说,这是一个重大更新,该模型于2023年11月首次发布,供购买X高级会员订阅的用户使用。最后一次更新是2023年3月的Grok 1.5,该版本改进了推理能力。根据X的博客文章,“该模型经过来自公开来源的各种文本数据(截至2023年第三季度)和人工评审员审查和整理的数据集”的训练。X的博客补充说,Grok-1没有接受X数据(包括公开的X帖子)的训练。
不过,Grok确实拥有“对世界的实时了解”,包括X上的帖子。xAI由Elon Musk于2023年3月创立,相对于OpenAI的ChatGPT等竞争对手,xAI在人工智能领域相对较新。但是,根据xAI的博客文章,他们的模型Grok 1.5正在以多项竞赛问题为基准缩小与GPT-4之间的差距,这些问题覆盖了从小学到高中的各种竞赛。
值得注意的是,大型语言模型的基准测试经常受到批评,因为如果这些基准测试包含在其训练数据中,那么模型在基准测试上表现良好。这有点类似于死记硬背答案,而不是真正学习材料。多模态对话机器人似乎是人工智能的下一个前沿,谷歌I/O宣布了多项进展,OpenAI发布了GPT-4o,因此Grok缺乏多模态功能使其落后于潮流,直到现在。
多模态对话机器人是人工智能的新前沿,我们应该审慎对待基准测试的结果,避免死记硬背而非真正的学习。