哪个AI模型提供“最好”的答案？

2023-12-13 外星人S博士

Source: Slashdot

匿名读者引述Ars Technica的一份报告称：对于那些寻求更严密的比较各种模型的人来说，Large Model Systems Organization（LMSys）的成员已经建立了Chatbot Arena，这是一个根据众包盲测网站生成Elo风格排名的平台。Chatbot Arena的用户可以将他们能想到的任何提示输入到该网站的表单中，以查看两个随机选择的模型的对比响应。每个模型的身份最初是隐藏的，如果模型在响应本身中透露了其身份，结果将被作废。然后，用户可以选择哪个模型提供了他们认为“更好”的结果，并提供“平局”或“两者都是糟糕”的额外选项。只有在提供成对排名后，用户才能看到他们正在进行评价的哪些模型，尽管网站的一个单独的“并排”部分允许用户选择两个特定的模型进行比较（无法对结果进行投票）。

自从今年5月份公开发布以来，LMSys表示已经在45个不同模型上收集了超过130,000次的盲目成对排名（截至12月初）。最近OpenAI的Andrej Karpathy发表了一篇积极的评论，这已经让LMSys的服务器经历了“超级压力测试。Chatbot Arena的数千个成对排名通过Bradley-Terry模型计算，该模型使用随机抽样生成Elo风格的评级来估计哪个模型最有可能在与其他模型直接竞争中获胜。有兴趣的双方还可以深入挖掘成千上万人类提示/响应评级的原始数据，或者查看更详细的统计数据，例如模型之间的直接成对胜率和Elo估计的置信区间范围。

Chatbot Arena最新的公共排行榜更新显示，几个专有模型在各种开源替代方案中轻松领先。OpenAI的ChatGPT-4 Turbo以相当大的优势领先，只有较旧的GPT-4模型（在6月份停用的“0314”）在评级规模上有一定接近。但是，即使是几个月前已经停用的GPT-3.5 Turbo版本在Chatbot Arena的测试中也优于可用的最高评级开源模型。Anthropic的专有Claude模型在Chatbot Arena的排行榜中也名列前茅。

然而，奇怪的是，该网站的盲目人类测试倾向于将较旧的Claude-1的排名略高于Claude-2.0和Claude-2.1的后续更新。在经过测试的非专有模型中，基于羊驼的Tulu 2和01.ai的Yi的排名与某些较旧的GPT-3.5实现相当。之后，排名缓慢但稳定地下降，直到你到达位于排行榜底部的Dolly和StableLM模型（这些模型的更旧版本在Chatbot Arena的图表中有最新的、更高排名的更新）。。

AI模型的性能比较一直是个热门话题，Chatbot Arena提供了一种全新的方法，通过盲测网站和成对排名来评估模型的表现。这为选择合适的AI模型提供了更多的参考和数据支持。

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://slashdot.org/story/23/12/13/2056215/which-ai-model-provides-the-best-answers?utm_source=rss1.0mainlinkanon&utm_medium=feed

更多阅读

哪个AI模型提供“最好”的答案？

苹果iPad Mini 2024评测：缺少亮点

Ozlo Sleepbuds重返市场，带来更好的睡眠体验

Meta暂停跟踪名人私人飞机的社交媒体账户

美国团体要求对谷歌高管因删除聊天记录进行惩处（音频）

OnePlus可能也将放弃曲面边缘设计

新闻集团起诉Perplexity侵权，称其大量抄袭华尔街日报和纽约邮报内容

AirPods即将推出新功能，助力听力健康

Insta360推出Ace Pro 2新款运动相机：更大屏幕和改进的8K功能（音频）

气球上的人工智能机器人相机可加速保险索赔进程

Netflix在发布游戏前关闭AAA游戏工作室，扩展梦想遭遇挫折

西弗吉尼亚格林银行镇：对电敏感人群的避难所（音频）

美国团体要求对谷歌高管因删除聊天记录进行惩处

Adobe Max 2024: 设计与人工智能领域的重大发布汇总（音频）

NASA的千亿月球任务进展缓慢，亟需反思

Anthropic发布Claude 3.5系列AI模型实现计算机控制的新升级

哪个AI模型提供“最好”的答案？

苹果iPad Mini 2024评测：缺少亮点

Ozlo Sleepbuds重返市场，带来更好的睡眠体验

Meta暂停跟踪名人私人飞机的社交媒体账户

美国团体要求对谷歌高管因删除聊天记录进行惩处（音频）

OnePlus可能也将放弃曲面边缘设计

新闻集团起诉Perplexity侵权，称其大量抄袭华尔街日报和纽约邮报内容

AirPods即将推出新功能，助力听力健康

Insta360推出Ace Pro 2新款运动相机：更大屏幕和改进的8K功能（音频）

气球上的人工智能机器人相机可加速保险索赔进程

Netflix在发布游戏前关闭AAA游戏工作室，扩展梦想遭遇挫折

西弗吉尼亚格林银行镇：对电敏感人群的避难所（音频）

美国团体要求对谷歌高管因删除聊天记录进行惩处

Adobe Max 2024: 设计与人工智能领域的重大发布汇总（音频）

NASA的千亿月球任务进展缓慢，亟需反思

Anthropic发布Claude 3.5系列AI模型 实现计算机控制的新升级

Anthropic发布Claude 3.5系列AI模型实现计算机控制的新升级