在圣诞节倒计时的最后一天,OpenAI预览了一套新的前沿推理模型,名为o3和o3-mini。尽管OpenAI并未今天发布这些模型,并承认最终结果可能会在更多后期训练中演变,但他们正在接收研究社区的申请,以在公开发布之前测试这些系统。OpenAI在9月推出了o1(代号Strawberry),并直接跳到o3,跳过o2以避免与英国电信公司O2的商标冲突。推理这个术语最近在AI行业变得流行,基本上意味着机器将指令分解成更小的任务,从而产生更强的结果。 这些模型通常会展示它们如何得出答案,而不是仅仅给出没有解释的最终答案。OpenAI表示,o3在各个方面超越了以前的性能记录。在编码测试中(称为SWE-Bench Verified),它比前代产品提高了22.8%。 在竞争性编程中,它的表现超过了OpenAI的首席科学家。在一场最具挑战性的数学比赛中(称为AIME 2024),它仅错了一题,并在一项专家级科学问题基准(称为GPQA Diamond)上获得了87.7%的分数。在那些通常会让AI困惑的最困难的数学和推理挑战中,o3成功解决了25.2%的问题,而其他模型没有超过2%。 此外,公司还宣布了关于审慎对齐的新研究,要求AI模型逐步处理安全决策。因此,这种范式要求模型主动推理用户的请求是否符合OpenAI的安全政策,而不是简单给出是/否的规则。公司声称,当在o1上测试时,它比包括GPT-4在内的以前模型更好地遵循安全指南。