OpenAI 向所有 ChatGPT 用户全面推出 GPT-5
重磅消息!OpenAI 本周已开始向所有 ChatGPT 用户全面推出其旗舰语言模型最新迭代版本——GPT-5。在周三(当地时间)举行的新闻发布会上,该公司首席执行官萨姆·奥特曼(Sam Altman)称 GPT-5 是迈向通用人工智能(AGI)道路上的“重要一步”。
奥特曼谈 AGI:通用智能的“重要一步”
尽管奥特曼并未直接宣称该模型已达到通用人工智能(AGI)水平,但他指出,最新发布的版本“显然是一个具备通用智能的模型”。他补充道,GPT-5 仍缺乏使其达到 AGI 的核心特质——根据OpenAI 章程中相对宽泛的定义,AGI 是指“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。例如,该模型目前仍不具备部署后持续学习的能力。
显著提升:智能、速度与准确性
OpenAI 宣称,相比此前的模型,GPT-5 更加智能、更快速、更实用、更准确,并且“幻觉”(即生成不实信息)率更低。奥特曼用他标志性的宏大语言来形容这次升级,将其比作 iPhone 从像素化屏幕到 Retina 显示屏的质变,简直是划时代的飞跃!奥特曼说:“GPT-5 是第一次让人真正感受到,就像在与任何领域的专家,一位博士级别的专家对话。”
多版本与定价策略
作为本次发布的一部分,OpenAI 还公布了两个新的模型变体:轻量级的 GPT-5-mini 和速度更快、成本更低的 GPT-5-nano(仅通过 API 提供)。
据 OpenAI 介绍,免费用户可以使用 GPT-5 和 GPT-5-mini,而 Plus 订阅用户则能享受与免费用户相同的模型,但使用上限“显著更高”。OpenAI 表示,每月 200 美元的 Pro 订阅提供 GPT-5 的无限访问权限,以及更强大的 GPT-5-pro 版本和 GPT-5-thinking(该版本能够让模型处理更长时间的查询)。Pro 用户依然可以选择使用旧版模型。现在,大多数用户无需手动选择模型,聊天界面会根据查询的复杂程度和用户的订阅等级,自动匹配到最合适的版本。
根据开发者发布博客,通过 API 使用 GPT-5 的开发者,其输入 token 的成本为每百万 1.25 美元,输出 token 为每百万 10 美元。博客补充道:“GPT-5-mini 的输入 token 成本为每百万 0.25 美元,输出 token 为每百万 2 美元;GPT-5-nano 的输入 token 成本为每百万 0.05 美元,输出 token 为每百万 0.40 美元。”相比之下,开发者通常会选择价格低廉的 Gemini 2.5 Flash 和 Flash-Lite——而现在,GPT-5-nano 的价格甚至更低。
增强的用户体验与个性化
从下周起,Pro 用户将能够把他们的 Gmail、Google 通讯录和 Google 日历连接到 ChatGPT,其他订阅等级的用户将在未来的某个日期获得此功能。OpenAI 在一封邮件中表示:“ChatGPT 会自动判断何时需要引用这些信息,因此你在聊天前无需手动选择。”
用户还可以选择聊天界面颜色,并从四种预设个性中进行选择——“愤世嫉俗者”(Cynic)、“机器人”(Robot)、“倾听者”(Listener)和“书呆子”(Nerd)。WIRED 的《模型行为》新闻简报上周曾报道过这项功能正在开发中。根据 OpenAI 的博客公告,他们计划将这些个性融入到高级语音模式中。
公司的 API 将提供所有三种模型,并可选控制项,用于在详细或直接回复之间进行切换。更厉害的是,GPT-5 比之前的模型能保留更多的信息——它拥有 256,000 token 的超大上下文窗口,比之前 o3 模型的 200,000 token 有了巨大飞跃!这意味着 GPT-5 能更精准地理解你的超长对话、文档甚至代码,再也不会“忘词”或搞混上下文了。
卓越的开发能力
OpenAI 的博客文章称,GPT-5 在多项编程基准测试中超越了其早期模型,包括 SWE-Bench Verified(得分 74.9%)、SWE-Lancer(GPT-5-thinking 得分 55%)和 Aider Polyglot(得分 88%)。这些测试旨在评估模型修复 bug、完成自由职业式编码任务以及跨多种编程语言工作的能力。
在周三的新闻发布会上,OpenAI 训练后团队负责人扬·杜波依斯(Yann Dubois)要求 GPT-5 “为我的讲英语的伴侣创建一个漂亮、高度交互式的学习法语的网页应用”。他要求 AI 包含每日进度、各种活动(如抽认卡和测验)等功能,并强调希望应用程序采用“高度引人入胜的主题”。大约一分钟后,AI 生成的应用程序就出现了。尽管这只是一次预设演示,但结果却是一个界面简洁、完全符合 杜波依斯 要求的网站。
“它是一个出色的编程协作者,并且在处理代理任务方面表现卓越,”训练后团队负责人米歇尔·波克拉斯(Michelle Pokrass)说,“它能高效执行长链操作和工具调用[这意味着它能更好地理解何时以及如何使用网络浏览器或外部 API 等功能],遵循详细指令,并对其行为提供预先解释。”
医疗健康领域的进展
OpenAI 在其博客文章中还表示,GPT-5 是“我们目前在健康相关问题上表现最好的模型”。在三项 OpenAI 健康相关的大语言模型(LLM)基准测试中——HealthBench、HealthBench Hard 和 HealthBench Consensus,其系统说明卡(一份描述产品技术能力和其他研究发现的文件)指出,GPT-5-thinking 在这些测试中“大幅超越”了之前的模型。例如,在 HealthBench Hard 测试中,GPT-5-thinking 取得了 25.5%的成绩,相较于 o3 的 31.6%有所提升。【编者注:原文此处数据逻辑存在矛盾,25.5%低于31.6%。】根据系统说明卡,这些分数都经过了两名或更多医生的验证。
降低“幻觉”现象
据OpenAI的米歇尔·波克拉斯(Michelle Pokrass)和安全研究负责人亚历克斯·博伊特尔(Alex Beutel)介绍,GPT-5的“幻觉”(即生成不实信息)现象已显著减少,他们已“显著降低了模型中的欺骗性行为发生率”。
系统说明卡中写道:“我们已采取措施,降低 GPT-5-thinking 在面对欺骗、作弊或解决问题方面的倾向性,尽管我们的缓解措施并非完美,还需要更多研究。”“特别是,我们已经训练模型在遇到无法解决的任务时,能够优雅地‘失败’。”
该公司系统说明卡指出,在不对 GPT-5 模型进行网络浏览访问的情况下进行测试后,研究人员发现其“幻觉”率(定义为“包含轻微或重大错误的事实性声明百分比”)比 GPT-4o 模型低 26%。而 GPT-5-thinking 的“幻觉”率相较于 o3 更是降低了 65%。
对于可能具有双重用途(潜在有害或无害)的提示,博伊特尔表示 GPT-5 采用了“安全补全”机制,这会促使模型“在保持安全的前提下,提供尽可能有用的答案”。据 博伊特尔 透露,OpenAI 进行了超过 5,000 小时的红队测试,并与外部组织合作进行测试,以确保系统具备强大的鲁棒性。
用户规模与展望
OpenAI 表示,目前其 ChatGPT 每周活跃用户已近 7 亿,付费企业用户达 500 万,还有 400 万开发者正在使用其 API。
ChatGPT 负责人尼克·特利(Nick Turley)兴奋地表示:“这款模型的‘感觉’简直棒呆了,我们相信无论是 AI 发烧友,还是平时不怎么关注科技的普通用户,都能真切感受到它的强大魅力和惊喜体验!”