OpenAI展示新推理模型o3与o3-mini，但未来可用时间尚未确定

2024-12-20 外星人S博士

Source: The Verge

在圣诞节倒计时的最后一天，OpenAI预览了一套新的前沿推理模型，名为o3和o3-mini。尽管OpenAI并未今天发布这些模型，并承认最终结果可能会在更多后期训练中演变，但他们正在接收研究社区的申请，以在公开发布之前测试这些系统。OpenAI在9月推出了o1（代号Strawberry），并直接跳到o3，跳过o2以避免与英国电信公司O2的商标冲突。推理这个术语最近在AI行业变得流行，基本上意味着机器将指令分解成更小的任务，从而产生更强的结果。

这些模型通常会展示它们如何得出答案，而不是仅仅给出没有解释的最终答案。OpenAI表示，o3在各个方面超越了以前的性能记录。在编码测试中（称为SWE-Bench Verified），它比前代产品提高了22.8%。

在竞争性编程中，它的表现超过了OpenAI的首席科学家。在一场最具挑战性的数学比赛中（称为AIME 2024），它仅错了一题，并在一项专家级科学问题基准（称为GPQA Diamond）上获得了87.7%的分数。在那些通常会让AI困惑的最困难的数学和推理挑战中，o3成功解决了25.2%的问题，而其他模型没有超过2%。

此外，公司还宣布了关于审慎对齐的新研究，要求AI模型逐步处理安全决策。因此，这种范式要求模型主动推理用户的请求是否符合OpenAI的安全政策，而不是简单给出是/否的规则。公司声称，当在o1上测试时，它比包括GPT-4在内的以前模型更好地遵循安全指南。

在技术快速发展的时代，我们是否已经准备好迎接强大的AI为我们带来的挑战与机遇？

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to info@microheadline.com

来源：https://www.theverge.com/2024/12/20/24326036/openai-o1-o2-o3-reasoning-model-testing https://www.reddit.com/r/OpenAI/comments/1hid7k8/openai_likely_to_release_new_o3_reasoning_model/ https://www.digitaltrends.com/computing/select-developers-can-access-full-o1-model-through-openai-api/

更多阅读

OpenAI展示新推理模型o3与o3-mini，但未来可用时间尚未确定

谷歌量子计算突破Willow的未来影响：比特币及其他加密货币的风险重估

Gemini AI现已能够总结Google Drive文件夹中的内容（音频）

埃隆·马斯克揭露SEC在推特收购调查后向其发送和解要求（音频）

一年来针对安全专家的供应链攻击窃取39万条凭证（音频）

罗德岛福利系统遭受重大网络攻击，个人数据泄露

一年来针对安全专家的供应链攻击窃取39万条凭证

古凯什·多玛拉朱成为历史上最年轻国际象棋冠军（音频）

能源部报告称到2028年美国数据中心电力需求可能接近翻倍（音频）

Nvidia股价持续下跌，Broadcom却快速上涨

美国2023年寿命提高至78.4岁，为疫情以来最高水平（音频）

引起争议的亚北极再冰冻计划显现出良好成果（音频）

煤炭使用将达新高，未来几年将维持近纪录水平（音频）

风险投资者看好Sublime，一家致力于邮件安全的AI初创公司（音频）

美国宣布全球首个电网规模核聚变发电厂（音频）

NASA认为Ingenuity失事原因出在导航系统