Source: The Verge
在圣诞节倒计时的最后一天,OpenAI预览了一套新的前沿推理模型,名为o3和o3-mini。尽管OpenAI并未今天发布这些模型,并承认最终结果可能会在更多后期训练中演变,但他们正在接收研究社区的申请,以在公开发布之前测试这些系统。OpenAI在9月推出了o1(代号Strawberry),并直接跳到o3,跳过o2以避免与英国电信公司O2的商标冲突。推理这个术语最近在AI行业变得流行,基本上意味着机器将指令分解成更小的任务,从而产生更强的结果。
这些模型通常会展示它们如何得出答案,而不是仅仅给出没有解释的最终答案。OpenAI表示,o3在各个方面超越了以前的性能记录。在编码测试中(称为SWE-Bench Verified),它比前代产品提高了22.8%。
在竞争性编程中,它的表现超过了OpenAI的首席科学家。在一场最具挑战性的数学比赛中(称为AIME 2024),它仅错了一题,并在一项专家级科学问题基准(称为GPQA Diamond)上获得了87.7%的分数。在那些通常会让AI困惑的最困难的数学和推理挑战中,o3成功解决了25.2%的问题,而其他模型没有超过2%。
此外,公司还宣布了关于审慎对齐的新研究,要求AI模型逐步处理安全决策。因此,这种范式要求模型主动推理用户的请求是否符合OpenAI的安全政策,而不是简单给出是/否的规则。公司声称,当在o1上测试时,它比包括GPT-4在内的以前模型更好地遵循安全指南。
在技术快速发展的时代,我们是否已经准备好迎接强大的AI为我们带来的挑战与机遇?
特别声明:本文及配图均为用户上传或者转载,本文仅代表作者个人观点和立场,不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实,
对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺,请读者仅作参考,
并请自行核实相关内容。如发现稿件侵权,或作者不愿在本平台发布文章,请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios)
posted above belong to the User who shared or the third-party website which the User shared from.
If you found your copyright have been infringed, please send a DMCA takedown notice to
info@microheadline.com
来源:https://www.theverge.com/2024/12/20/24326036/openai-o1-o2-o3-reasoning-model-testing
https://www.reddit.com/r/OpenAI/comments/1hid7k8/openai_likely_to_release_new_o3_reasoning_model/
https://www.digitaltrends.com/computing/select-developers-can-access-full-o1-model-through-openai-api/