OpenAI终于发布GPT-5，你想知道的都在这里！

唐宁街10号 371 浏览 2025-08-11 发布

OpenAI 向所有 ChatGPT 用户全面推出 GPT-5

重磅消息！OpenAI 本周已开始向所有 ChatGPT 用户全面推出其旗舰语言模型最新迭代版本——GPT-5。在周三（当地时间）举行的新闻发布会上，该公司首席执行官萨姆·奥特曼（Sam Altman）称 GPT-5 是迈向通用人工智能（AGI）道路上的“重要一步”。

奥特曼谈 AGI：通用智能的“重要一步”

尽管奥特曼并未直接宣称该模型已达到通用人工智能（AGI）水平，但他指出，最新发布的版本“显然是一个具备通用智能的模型”。他补充道，GPT-5 仍缺乏使其达到 AGI 的核心特质——根据OpenAI 章程中相对宽泛的定义，AGI 是指“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。例如，该模型目前仍不具备部署后持续学习的能力。

显著提升：智能、速度与准确性

OpenAI 宣称，相比此前的模型，GPT-5 更加智能、更快速、更实用、更准确，并且“幻觉”（即生成不实信息）率更低。奥特曼用他标志性的宏大语言来形容这次升级，将其比作 iPhone 从像素化屏幕到 Retina 显示屏的质变，简直是划时代的飞跃！奥特曼说：“GPT-5 是第一次让人真正感受到，就像在与任何领域的专家，一位博士级别的专家对话。”

多版本与定价策略

作为本次发布的一部分，OpenAI 还公布了两个新的模型变体：轻量级的 GPT-5-mini 和速度更快、成本更低的 GPT-5-nano（仅通过 API 提供）。

据 OpenAI 介绍，免费用户可以使用 GPT-5 和 GPT-5-mini，而 Plus 订阅用户则能享受与免费用户相同的模型，但使用上限“显著更高”。OpenAI 表示，每月 200 美元的 Pro 订阅提供 GPT-5 的无限访问权限，以及更强大的 GPT-5-pro 版本和 GPT-5-thinking（该版本能够让模型处理更长时间的查询）。Pro 用户依然可以选择使用旧版模型。现在，大多数用户无需手动选择模型，聊天界面会根据查询的复杂程度和用户的订阅等级，自动匹配到最合适的版本。

根据开发者发布博客，通过 API 使用 GPT-5 的开发者，其输入 token 的成本为每百万 1.25 美元，输出 token 为每百万 10 美元。博客补充道：“GPT-5-mini 的输入 token 成本为每百万 0.25 美元，输出 token 为每百万 2 美元；GPT-5-nano 的输入 token 成本为每百万 0.05 美元，输出 token 为每百万 0.40 美元。”相比之下，开发者通常会选择价格低廉的 Gemini 2.5 Flash 和 Flash-Lite——而现在，GPT-5-nano 的价格甚至更低。

增强的用户体验与个性化

从下周起，Pro 用户将能够把他们的 Gmail、Google 通讯录和 Google 日历连接到 ChatGPT，其他订阅等级的用户将在未来的某个日期获得此功能。OpenAI 在一封邮件中表示：“ChatGPT 会自动判断何时需要引用这些信息，因此你在聊天前无需手动选择。”

用户还可以选择聊天界面颜色，并从四种预设个性中进行选择——“愤世嫉俗者”（Cynic）、“机器人”（Robot）、“倾听者”（Listener）和“书呆子”（Nerd）。WIRED 的《模型行为》新闻简报上周曾报道过这项功能正在开发中。根据 OpenAI 的博客公告，他们计划将这些个性融入到高级语音模式中。

公司的 API 将提供所有三种模型，并可选控制项，用于在详细或直接回复之间进行切换。更厉害的是，GPT-5 比之前的模型能保留更多的信息——它拥有 256,000 token 的超大上下文窗口，比之前 o3 模型的 200,000 token 有了巨大飞跃！这意味着 GPT-5 能更精准地理解你的超长对话、文档甚至代码，再也不会“忘词”或搞混上下文了。

卓越的开发能力

OpenAI 的博客文章称，GPT-5 在多项编程基准测试中超越了其早期模型，包括 SWE-Bench Verified（得分 74.9%）、SWE-Lancer（GPT-5-thinking 得分 55%）和 Aider Polyglot（得分 88%）。这些测试旨在评估模型修复 bug、完成自由职业式编码任务以及跨多种编程语言工作的能力。

在周三的新闻发布会上，OpenAI 训练后团队负责人扬·杜波依斯（Yann Dubois）要求 GPT-5 “为我的讲英语的伴侣创建一个漂亮、高度交互式的学习法语的网页应用”。他要求 AI 包含每日进度、各种活动（如抽认卡和测验）等功能，并强调希望应用程序采用“高度引人入胜的主题”。大约一分钟后，AI 生成的应用程序就出现了。尽管这只是一次预设演示，但结果却是一个界面简洁、完全符合杜波依斯要求的网站。

“它是一个出色的编程协作者，并且在处理代理任务方面表现卓越，”训练后团队负责人米歇尔·波克拉斯（Michelle Pokrass）说，“它能高效执行长链操作和工具调用[这意味着它能更好地理解何时以及如何使用网络浏览器或外部 API 等功能]，遵循详细指令，并对其行为提供预先解释。”

医疗健康领域的进展

OpenAI 在其博客文章中还表示，GPT-5 是“我们目前在健康相关问题上表现最好的模型”。在三项 OpenAI 健康相关的大语言模型（LLM）基准测试中——HealthBench、HealthBench Hard 和 HealthBench Consensus，其系统说明卡（一份描述产品技术能力和其他研究发现的文件）指出，GPT-5-thinking 在这些测试中“大幅超越”了之前的模型。例如，在 HealthBench Hard 测试中，GPT-5-thinking 取得了 25.5%的成绩，相较于 o3 的 31.6%有所提升。【编者注：原文此处数据逻辑存在矛盾，25.5%低于31.6%。】根据系统说明卡，这些分数都经过了两名或更多医生的验证。