当前位置:首页 > 知识 > OpenAI惊人自曝:GPT

OpenAI惊人自曝:GPT

2025-08-23 13:54:02 [综合] 来源:纳米涂层自洁如新

  新智元报道  

  【新智元导读】GPT-5智商测试,惊人仅拿下了70分?自曝全网狂吐槽「降智」背后的真相,竟是惊人「路由」决定了模型的智能。想要解锁神级GPT-5,自曝秘诀在于prompt。惊人这不,自曝医学家借助GPT-5重现了「神之一手」时刻。惊人

  GPT-5发布72小时后,自曝一张IQ测试结果震惊了全网。惊人

  在门萨IQ测试中,自曝GPT-5拿下了118分,惊人离线测试70分;GPT-5 Thinking则分别获得了85分和57分。自曝

  这一结果,惊人创OpenAI模型家族IQ测试有史以来的自曝最低纪录。

  实际上,惊人这背后的实际原因,归咎于「路由」问题。

  并非是GPT-5太笨了,而是作为一个「单体模型」,其中一个组件决定了它的智能。

  类似的问题,奥特曼也曾在Reddit AMA问答中做出了回应。

  他表示,内部出现了严重故障(Sev级),自动切换系统无法工作,导致GPT-5表现得像降智一样。

  METR的最新报告中,可以看出GPT-5依旧处于帕累托前沿,智能呈指数级增长并未放缓。

  也就是说,GPT-5还在延续Scaling Law的神话。

  GPT-5很强,关键在于prompt

  那些一味地吐槽GPT-5的网友们,实际上并未发掘出最新模型的潜力。

  Cline人工智能主管表示,核心在于一个人的想法、品味,以及沟通方式。

  对于那些具备系统思维的用户而言,GPT-5堪称革命性工具。只要肯花时间:构建完整思维框架,制定明确需求规格向模型清晰阐述。

  由此,它就能自主精准执行,全程无需人工纠偏。

  无独有偶,NYT畅销书作者Mark Manson也表示,所有人都在用错误的方式与GPT-5对话,关键在于掌握主动权。

  这样,让它知道你可不是好糊弄的,才会给出完美答案。

  举个栗子,你想要问「blueberry」有几个b,并恐吓它「答不对小心Bambi妈妈找你算账」。

  此时,GPT-5根本不会犯错。

  再比如,网友们吵翻的GPT-5连一个简单方程式都不会解,实际诀窍也在提示上。

  当提示变成「think harder and solve」时,就可以得出正确的解。

  怎样提示才算有效?有网友曝出了GPT-5系统提示,堪称一座金矿。

  「神之一手」时刻

  在医学领域,GPT-5已经可以媲美人类专家了。

  生物医学家Derya Unutmaz在体验GPT-5之后,深刻感受到了AlphaGo的「第37步」时刻。

  事情是这样的,两年前,Derya的实验室开展了一系列前沿免疫学实验,旨在调控T细胞的能量代谢。

  这种免疫细胞对癌症免疫治疗、慢性病和自身免疫疾病都有重大影响。

  当时,他们获得了一个令人惊艳的结果,但有个发现始终无法解释。

  团队为此折腾了好几周,也只得到部分答案。

  基于这些实验,Derya将未发表的数据图上传给GPT-5 Pro去分析,结果令人大吃一惊。

  GPT-5仅凭如上一张图表,就准确识别出关键发现,并提供了实验方案的建议。

  最不可思议的是,它提出的机制最终解释了全部结果。

  Derya Unutmaz表示,这简直就是AI领域的「神之一手」的时刻。这一过程证明了,GPT-5已成为顶尖专家和真正的科研伙伴,能提供深刻洞见。

  OpenAI携GPT-5剑指Anthropic王座

  GPT-5虽还不是AGI,但其强大的编程能力,已经吸引了更多开发者。

  另外,其全新的个性化选项和减少的「幻觉」现象,则可能为免费版ChatGPT吸引更多日常用户。

  这无疑是向Anthropic发出的挑战书。

  之所以这样说,原因在于:编写代码的最强AI模型,一般公认为Anthropic的Claude模型。

  因此,OpenAI发布新模型时,极力强调GPT-5在编程方面的强大能力

  GPT-5是我们迄今为止最强大的编程模型。在复杂前端生成和调试大型代码库方面,GPT-5表现尤为突出。  

  只需一个提示,它就能直观且优雅地创造出美观、响应式的网站、应用程序和游戏,将想法转化为现实。

  意图非常明显。

  在新闻发布会上, 奥特曼表示,新模型不仅擅长编码,还能将软件项目从想法一步转化为可用代码。

  AI初创公司MagicPath的首席执行官Pietro Schirano称GPT-5是目前最出色的编程模型,是一个「绝佳的合作者」。他表示:

  这就像电力进入千家万户,是一个「前所未有」的变革时刻,它将彻底改变我们的开发方式。

  在长达一小时的直播中,OpenAI大部分时间都在展示GPT-5的编程能力,包括演示一系列基准测试结果.

  Cursor、Vercel和JetBrains等还分享了GPT-5的早期测试的评价。

  「AI编程」神器Cursor的首席执行官Michael Truell夸其为「使用过的最智能的编码模型」:

  团队发现,GPT-5不仅表现出色、易于引导,还展现出其他模型未曾有过的独特个性。

  它不仅能捕捉到难以察觉的深层错误,还能运行长时间、多轮次的后台AI智能体,完成复杂任务——这些任务往往让其他模型无从下手。

  Vercel的创始人、首席执行官Guillermo Rauch,认为「GPT-5是最好的前端AI模型」:

  我们在v0.dev上使用时的初步印象是,它是最好的前端AI模型,在美学感和代码质量上均达到顶尖表现,堪称独一无二。

  它在复杂计算机科学与艺术感的交汇处表现出色,标志着从过去简单的代码补全到如今跨设备、跨屏幕的全栈应用的飞跃时刻。

  IDE传统巨头JetBrains的首席执行官Kirill Skrygan,表示「GPT-5颠覆了编程」:

  GPT-5对编码领域来说是一个革命性的突破。作为默认模型,它使JetBrains AI Assistant和编码智能体Junie的性能和质量提升了超过1.5倍。

  在我们的新无代码平台Kineto上,GPT-5将设计、前端以及应用整体体验的端到端质量提升了一倍。

  从数据上看,Anthropic的营收增长主要得益于其强大的编程能力。

  据The Information报道,Anthropic的年营收已接近50亿美元,高于本月初的40亿美元,这反映出它作为程序员和编程应用首选的地位。

  与此同时,OpenAI的年营收目前为120亿美元,这个数字则反映了其更广泛的业务和更大的规模。

  未来,是智能体式推理

  GPT-5发布之后,OpenAI首席研究官Mark Chen和总裁Greg Brockman一同在TBPN最新采访中,谈论了最新模型一些研发爆点。

  Mark Chen最先提到了,GPT-5的训练关键在于合成数据。

  它的成功意味着,完全突破了互联网数据枯竭的限制,并且在核心领域实现更全面的知识覆盖。

  OpenAI当前在做的,是将世界引向「智能体式推理」的时代,GPT-5是这一转变的关键。

  通过更快、更智能的模型减少用户干预,让AI无缝地融入日常和专业使用中。

  Mark强调,OpenAI多年来致力于推理模型,但以往接口笨拙,如在GPT-4和o1之间切换。

  如今,GPT-5通过速度优化,实现了无缝整合,让用户无需等待长推理过程。

  他详细举例说道,以往模型如o1在所有任务上提供更好答案,但太慢。GPT-5结合了推理和非推理能力,成为「一站式商店」(one-stop shop)。

  尤其是,后训练团队的贡献,让模型在编码等领域成为「怪物」。

  当被问及模型命名时,Mark笑称数字命名「疯狂」,但确实奏效了。

  他表示,GPT-5在创意协作、软件工程方面的能力,确实超越了GPT-4.5,而且更快、更便宜。

  GPT-5像给ChatGPT「一台电脑」,包括Python REPL、浏览器。模型能零样本学习新工具,这一过程就像人类体验新工具一样。

  在部分需要创造性的任务中,GPT-5能够给出惊喜的解法。下一步的目标是,将LLM能力提升到「理论框架」层面,提出新假设、辅助科研创新。

  多线并行,随时发货

  在OpenAI内部,团队会在不同时间尺度上运作:从探索想法到转化,再到旗舰模型发布。

  不仅是单一技术的突破,而是多轴进步。

  Mark将其描述成「探索与执行」的pipeline,强调了公司模型快速迭代的能力。

  我们给它空间去成长,一旦准备好,就直接发货。

  目前,OpenAI模型以算法优化为主,同时吸收了硬件和推理架构改进的成果,并借鉴开源社区在推理加速上的经验。

  最后,他还提到了ChatGPT处理了全球约71%的大模型查询,并提供了独特的使用数据洞察。

  Mark表示,不只依赖DUA或点赞数据,就是为了避免「迎合性」偏差,而要挖掘隐性行为信号,指导模型去改进。

  GPT-5已是AI「自我迭代」

  Greg Brockman经历了 GPT-1 到 GPT-5 的每一次发布,总结了每个版本给他的感受:

  • GPT-1:用公开数据训练Transformer,证明「预训练有用」。

  • GPT-2:第一次觉得「生成的东西挺酷」,有独角兽故事。

  • GPT-3:刚好跨过「有人愿意用」的门槛,但可靠性差。

  • GPT-4:真正具备现实可用性,开始能写代码、做健康问答。

  • GPT-5:在可靠性、实用性、代码能力上设定了全新标准,软件工程将被彻底变革。

  2019年底,GPT-3出来了。OpenAI意识到必须打造一个产品,才能继续推进使命,筹集资金。

  他们决定打造API,让别人自己去探索用途。

  2020年年初,Greg Brockman的团队四处奔波,试图找到愿意尝试API的客户。

  到2020年中,OpenAI才把API推向市场,而ChatGPT是2022年11月才发布。

  当时,OpenAI考虑把ChatGPT叫「Chat with GPT-3.5」。ChatGPT还有个前身产品叫WebGPT,也是基于GPT-3.5。整个2022年,OpenAI基本上是在付钱让人用ChatGPT的前身:用户不会付钱给OpenAI,OpenAI得付钱给他们用。

  什么时候意识到ChatGPT会爆?

  对Greg Brockman来说,真正触动他的时刻是完成GPT-4训练的时候。

  那是2022年8月8日,OpenAI完成了GPT-4的初步后训练。虽然有一堆bug,但创造力特别惊人,真的非常有趣。

  OpenAI花了大约一年半的时间,才让模型的创意写作能力达到当初那个有bug的版本的水平。

  那一刻OpenAI意识到,这个模型不仅能完成特定任务的后训练,还能泛化,表现出智能行为,即使没有直接针对这点训练。这显然是个杀手级应用。

  于是把原计划的GPT-4 API发布推迟,先把ChatGPT做出来,2022年11月上线。

  回头看,GPT-3.5其实已经是当时社会没见过的「可用模型」,只是在OpenAI眼里全是缺点。

  而GPT-3.5引发了OpenAI的商业范式革命:从「付费请人测试」到「用户主动订阅」的根本性转变。

  Ben Thompson称OpenAI为「意外诞生的消费级公司」:ChatGPT发布后72小时内突破百万用户,形成现象级需求。

  很多人在事后说,OpenAI一开始就旨在证明「Scaling」是AI进步的关键,但其实几乎是反过来的:Scaling是他们尝试了很多无效方法后,唯一奏效的东西。

  而现在OpenAI已经看到AI模型正在协助创造下一代模型,并能监督那些对人类来说过于复杂的工作。

  Greg Brockman表示:我们不应该为了美观而刻意优化 CoT(思考链),也不用强迫模型隐藏其推理过程,应该让它们自由地展示自己的「想法」。

  Greg Brockman曾提到,随着模型能力的提升,它们不仅能完成简单的任务,还能胜任一些复杂的、人类难以把控的工作。

  这种「可扩展的监督」概念,正是为了解决这一挑战而提出的:利用强大的 AI 模型来为复杂任务提供可靠的反馈和监督,或者通过「批评模型」协助人类专家,从而更轻松地进行监督。这确保了即使 AI 系统变得更加智能、更复杂,它们也能与人类价值观保持一致,并得到安全的管理。

  参考资料:

  https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown  

  https://x.com/thealexbanks/status/1953867094648385990 

  https://x.com/slow_developer/status/1954097563981812149 

  https://x.com/tbpn/status/1954249389796651184  

  https://www.youtube.com/watch?v=gaImbWPGgtU

海量资讯、精准解读,尽在新浪财经APP

责任编辑:韦子蓉

(责任编辑:休闲)

推荐文章
  • HWG!米兰拿下勒沃库森博尼费斯 先租后买可达2900万欧

    HWG!米兰拿下勒沃库森博尼费斯 先租后买可达2900万欧 北京时间8月22日,名记罗马诺以标志性的“HERE WE GO”报道,米兰签下勒沃库森前锋博尼费斯,形式是先租后买。租借费用500万欧,合同包含2400万欧的非强制性买断条款。罗马诺表示:“尼日利亚前 ...[详细]
  • 馇子怎么炒

    馇子怎么炒 炒碴子怎么做-懂得原料:碴子,:1.把碴子从袋子里拿出来,烧开水,把碴子烫下,把一坨一坨的搅开,放在凉水中过一下,捞出沥干,备用2.里脊。炒碴条怎么做?3.锅热油,下点葱末爆锅,放肉丝,炒变色,倒入剩 ...[详细]
  • 九总槟榔

    九总槟榔 前言:答:张新发槟榔性价比是极高的,百年老字号,不仅用料讲究,采用非遗传承工艺和自己秘制的配方,槟榔产品味道很正,口感醇厚,不烧口,品质和创意在业内是数一数二的。企业回答:价格只是购买产品或服务过程中 ...[详细]
  • 龙淑芬什么梗

    龙淑芬什么梗 龙淑芬什么梗?出自《欢乐喜剧人第五季》第四期,卢鑫玉浩的相声《侠客行不行》:说到小龙女的本名,竟然叫“龙淑芬”。重庆有家特别有名的烧烤串串,就叫重庆串串-淑芬掌...淑芬是什么梗问题一:何娟淑芬是什么 ...[详细]
  • “爱心妈咪小屋”凝聚大爱 上海市总工会呼吁共同推动创建家庭友好型工作场所

    “爱心妈咪小屋”凝聚大爱 上海市总工会呼吁共同推动创建家庭友好型工作场所 为保障职场妈妈母乳喂养权益,上海市总工会于2013年推出“爱心妈咪小屋”项目,历经10年,已成为上海工会推进职场性别平等、落实积极生育支持措施,提高女职工生活品质的品牌。图说:上海市总工会女工委向全市 ...[详细]
  • 啥也不是这句话是什么梗

    啥也不是这句话是什么梗 “你追了我八条街,我都给你说了,我不是你爹”这句话是什么梗?可能是游戏里的内容吧,这样的差不多内容也是有很多,一般都是在游戏里的,很多这样的情况可能是游戏里的内容吧,这样的差不多内容也是有很多,一般都 ...[详细]
  • 我开空调了是什么梗

    我开空调了是什么梗 开空调什么梗?开空调的话只是将空调打开而已,并没有什么特别大的意义,而且夏天的时候基本上大多数人都喜欢待在空调房里面。开空调的话只是将空调打开而已,并没有什么特别...你空调开几度是什么梗?空调开到二 ...[详细]
  • 德胜大大是什么梗

    德胜大大是什么梗 连人民日报都用上yyds,这个yyds到底是什么意思?yyds这个词,是一个网络用词,源自于电竞圈。是由曾是一名职业选手现是一名主播的“山泥若”在直播期间随口说出来的。在一次直播的时候,他称英雄联盟职 ...[详细]
  • 电影《长安的荔枝》郑州路演全场齐呼“太中了”大鹏白客庄达菲刘俊谦常远给“荔”互动

    电影《长安的荔枝》郑州路演全场齐呼“太中了”大鹏白客庄达菲刘俊谦常远给“荔”互动 7月27日,电影《长安的荔枝》第三轮全国路演在郑州站迎来圆满收官。编剧、导演兼领衔主演大鹏,领衔主演白客、庄达菲、刘俊谦,特别出演常远出席郑州路演活动。台上主创唱歌作画说绕口令,台下观众送花送锦旗教河 ...[详细]
  • 女生吃圣女果有什么好处

    女生吃圣女果有什么好处 女人吃圣女果有什么好处和坏处女人吃圣女果有什么好处问题分析:这个一般就是有大量的维生素,所以吃后可以达到补维生素的效果,对于皮肤这些当然是有好处的意见建议:所以这个适当的多吃是有好处不用担心。经期吃圣 ...[详细]