2025-07-03 17:40来源:会员发布
人类智能与人工智能之间的界限正在逐渐模糊。
OpenAI在周四发布了o1,该公司在一篇博客中表示,这是其一系列新人工智能模型中的第一个,旨在“花更多时间思考,然后再做出反应”。
与之前的模型相比,新模型能够处理更复杂的任务,并能解决科学、编程和数学领域的更具挑战性的问题。可以说,它们在某种程度上更像人类。
本文仅对Business Insider订阅者开放。成为业内人士,现在就开始阅读。有账户吗?.虽然OpenAI的早期模型在SAT和统一律师资格考试等标准化测试中表现优异,但该公司表示,01更进一步。它的表现“类似于博士生在物理、化学和生物学等领域的挑战性基准任务。”
例如,在国际数学奥林匹克的资格考试中,01以显著优势战胜了gpt - 40——OpenAI在5月份推出的一个多模态模型。该公司指出,gpt - 40仅正确解决了13%的考试问题,而01的得分则高达83%。
它们推理能力的显著提升,部分得益于一种称为“思维链”的提示技巧。OpenAI表示,o1“学会了识别和纠正错误,能够将复杂的步骤分解为更简单的步骤,并在当前方法无效时尝试不同的解决方案。”
不过,这并不意味着与早期模型相比没有任何权衡。OpenAI指出,尽管人类测试者在数据分析、编程和数学等需要大量推理的领域更倾向于使用gpt - 40的反应,但在个人写作等自然语言任务中,gpt - 40依然表现更佳。
长期以来,OpenAI的核心目标一直是创造通用人工智能(AGI),即一种能够模仿人类能力的人工智能。今年夏天,当o1仍在开发中时,该公司公布了一个新的五级分类系统,以跟踪其实现这一目标的进展。据报道,公司高管向员工表示,o1已接近第二级,即具有人类水平解决问题的“推理者”。
宾夕法尼亚大学沃顿商学院的教授莫里克(Ethan Mollick)已经使用o1超过一个月,他认为该模型的优势在于其解决填字游戏的能力。对于大型语言模型而言,填字游戏通常难以解决,因为“它们需要迭代解决:尝试和拒绝许多相互影响的答案,”莫里克在他的Substack上写道。大多数大型语言模型“每次只能在它们的答案中添加一个标记/单词”。
然而,当莫里克要求01解决一个填字游戏时,它在回答之前思考了“整整108秒”。他说,该模型的思维过程既“启发性强”,又“令人印象深刻”,即使它的答案并不完全正确。
有关的故事
然而,其他人工智能专家对此并不完全信服。
纽约大学的认知科学教授加里·马库斯告诉商业内幕网,该模型是“令人印象深刻的工程”,但并不是一次巨大的飞跃。他表示:“我相信它会像往常一样被炒作,但绝对不会接近AGI。”
自从OpenAI去年发布GPT-4以来,该公司一直在推出连续的迭代版本,以寻求实现AGI。今年4月,GPT-4 Turbo向付费用户开放,其中一个更新包括生成“更具对话性”的回复的能力。
该公司在7月份宣布,正在测试一款名为SearchGPT的人工智能搜索产品,面向有限的用户群体。