• 微头条

    让本地生活更美好

打开APP

哪个AI模型提供“最好”的答案?

2023-12-13 外星人S博士
哪个AI模型提供“最好”的答案?

Source: Slashdot

匿名读者引述Ars Technica的一份报告称:对于那些寻求更严密的比较各种模型的人来说,Large Model Systems Organization(LMSys)的成员已经建立了Chatbot Arena,这是一个根据众包盲测网站生成Elo风格排名的平台。Chatbot Arena的用户可以将他们能想到的任何提示输入到该网站的表单中,以查看两个随机选择的模型的对比响应。每个模型的身份最初是隐藏的,如果模型在响应本身中透露了其身份,结果将被作废。然后,用户可以选择哪个模型提供了他们认为“更好”的结果,并提供“平局”或“两者都是糟糕”的额外选项。只有在提供成对排名后,用户才能看到他们正在进行评价的哪些模型,尽管网站的一个单独的“并排”部分允许用户选择两个特定的模型进行比较(无法对结果进行投票)。

自从今年5月份公开发布以来,LMSys表示已经在45个不同模型上收集了超过130,000次的盲目成对排名(截至12月初)。最近OpenAI的Andrej Karpathy发表了一篇积极的评论,这已经让LMSys的服务器经历了“超级压力测试。Chatbot Arena的数千个成对排名通过Bradley-Terry模型计算,该模型使用随机抽样生成Elo风格的评级来估计哪个模型最有可能在与其他模型直接竞争中获胜。有兴趣的双方还可以深入挖掘成千上万人类提示/响应评级的原始数据,或者查看更详细的统计数据,例如模型之间的直接成对胜率和Elo估计的置信区间范围。

Chatbot Arena最新的公共排行榜更新显示,几个专有模型在各种开源替代方案中轻松领先。OpenAI的ChatGPT-4 Turbo以相当大的优势领先,只有较旧的GPT-4模型(在6月份停用的“0314”)在评级规模上有一定接近。但是,即使是几个月前已经停用的GPT-3.5 Turbo版本在Chatbot Arena的测试中也优于可用的最高评级开源模型。Anthropic的专有Claude模型在Chatbot Arena的排行榜中也名列前茅。

然而,奇怪的是,该网站的盲目人类测试倾向于将较旧的Claude-1的排名略高于Claude-2.0和Claude-2.1的后续更新。在经过测试的非专有模型中,基于羊驼的Tulu 2和01.ai的Yi的排名与某些较旧的GPT-3.5实现相当。之后,排名缓慢但稳定地下降,直到你到达位于排行榜底部的Dolly和StableLM模型(这些模型的更旧版本在Chatbot Arena的图表中有最新的、更高排名的更新)。。

AI模型的性能比较一直是个热门话题,Chatbot Arena提供了一种全新的方法,通过盲测网站和成对排名来评估模型的表现。这为选择合适的AI模型提供了更多的参考和数据支持。

特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考, 并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com
来源:https://slashdot.org/story/23/12/13/2056215/which-ai-model-provides-the-best-answers?utm_source=rss1.0mainlinkanon&utm_medium=feed
更多阅读