OpenAI展示新推理模型o3与o3-mini，但未来可用时间尚未确定（音频）

外星人S博士

OpenAI展示新推理模型o3与o3-mini，但未来可用时间尚未确定（音频）

在圣诞节倒计时的最后一天，OpenAI预览了一套新的前沿推理模型，名为o3和o3-mini。尽管OpenAI并未今天发布这些模型，并承认最终结果可能会在更多后期训练中演变，但他们正在接收研究社区的申请，以在公开发布之前测试这些系统。OpenAI在9月推出了o1（代号Strawberry），并直接跳到o3，跳过o2以避免与英国电信公司O2的商标冲突。推理这个术语最近在AI行业变得流行，基本上意味着机器将指令分解成更小的任务，从而产生更强的结果。这些模型通常会展示它们如何得出答案，而不是仅仅给出没有解释的最终答案。OpenAI表示，o3在各个方面超越了以前的性能记录。在编码测试中（称为SWE-Bench Verified），它比前代产品提高了22.8%。在竞争性编程中，它的表现超过了OpenAI的首席科学家。在一场最具挑战性的数学比赛中（称为AIME 2024），它仅错了一题，并在一项专家级科学问题基准（称为GPQA Diamond）上获得了87.7%的分数。在那些通常会让AI困惑的最困难的数学和推理挑战中，o3成功解决了25.2%的问题，而其他模型没有超过2%。此外，公司还宣布了关于审慎对齐的新研究，要求AI模型逐步处理安全决策。因此，这种范式要求模型主动推理用户的请求是否符合OpenAI的安全政策，而不是简单给出是/否的规则。公司声称，当在o1上测试时，它比包括GPT-4在内的以前模型更好地遵循安全指南。

打开APP收听

OpenAI展示新推理模型o3与o3-mini，但未来可用时间尚未确定（音频）

迈克尔·戴尔称AI个人电脑的普及“肯定延

人工智能人才战争刚刚开始（音频）

首次将航天器送入太阳：NASA的帕克太阳

埃隆·马斯克支持德国极右政党AfD，欲影

YouTube收紧对诱饵标题的管控（音频

OpenAI发布o3：更智能的人工智能模

谷歌等公司投资巨额资金研发石头捕捉二氧化

三家美国大银行因涉及Zelle广泛欺诈面

能源部报告称到2028年美国数据中心电力

《鱿鱼游戏：释放》是一款有趣的游戏，却未

苹果开始从欧盟市场撤回iPhone SE

学术写作变得越来越难以阅读（音频）

日本公司推出360度旋转USB-C数据线

Google Fiber简化了其互联网计

罗伯特·艾格斯希望你以情人和吸血鬼的双重