最强模型GPT-5发布 ! 一篇文章带你看完GPT-5 发布会到底讲了什么？|理科生网

## AI大模型 GPT-5 于北京时间8月8号凌晨1 点正式发布，整个发布会过程历经1小时22分钟，围绕着GPT-5 能力做了详细介绍希望本文对于你有所帮助！ www.lksr.net {alertInfo}

本文由人工编写审核，非AI生成内容，请放心观看！

{getToc} $title={文章目录}

## 开场和模型介绍

GPT-5

山姆概述了最近的GPT-5 的进展！

GPT是OpenAI 世上最佳最强模型介绍，基准测试情况介绍！

## 基准测试结果

学术评估结果

夸学科学术评估结果，优于已有模型和市场上的其他型号

SWE-bench Verified：跟踪真实软件工程能力（图有问题）
Aider Polyglot：多语言环境下的代码理解、生成、等综合语言能力

MMMU：大模型在看图 + 理解复杂学科知识 + 多种题型下的综合推理能力。类似人类大学水平的跨学科知识图文题，且不局限于语言推理

AIME 2025 ：数学竞赛推理能力(这里用的高中国际考试题)

这里的测试题：是OpenAI自己建立的一些标准自己参考！

## 推送时间

今天可用：免费用户、plus 用户，Pro用户、Team 用户

下周可用：企业用户和教育用户（edu）

免费用户额度用完，会自动跳转到GPT-5 mini 版本！！！

注意：GPT- 5 mini 是优于O3 收费模型的、plus 会有额度限制、Pro用户没有GPT 5的额度限制、团队用户使用的额度{alertSuccess}

## 现场的演示

问题解释能力演示：深入思考方面（行业深度类似博士辅导）

教会学生伯努利效应是什么？做一个基本的伯努利效应的效果图展示。

情感化演示

通过演示输出告别信，表现GPT-5 更加具有智能化，情感化！

这里不在截图

编码能力演示

这里演示了前端网页的搭建功能，不好评价，个人感受是挺不错的！

## 语言功能

免费用户：数小时
收费用户：几乎可以无限制使用

### 升级点：

输出语言更加自然
视频能力提高，即：通话视频能力
翻译能力提高

## 自定义预览功能

支持用户自定义chatgpt 界面~蓝色~彩色

## 长记忆功能

这项功能会使得ChatGPT更加个性化用户的体验。是ChatGPT 更加了解用户喜好！

## 创造了一种新的训练方式（使用GPT-o3训练GPT-5）

GPT-5 使用了一种新的训练技术，最大限度的使用上一代模型、先进的模型不仅仅消耗数据，还会创建数据，使用GPT-o3创建高质量课程，来训练GPT-5。最近，合成数据被一直在业界讨论，用来获取廉价数据。但是，新的训练方式不仅仅是创建合成数据，同时创建正确的合成数据，以更好的方式训练，而仅仅是填充数据。通过几代模型相互互动、预示了一种递归自我改进的循环机制？上一代模型越多，能够提高数据质量和更好是训练为下一代模型。

在OpenAI已经完成了预训练然后是推理、现在几代模型之间可以实现相互交互。未来的模型将远远超过预训练和训练后处理流程。

个人认为这一段极度重要

我可以理解为以前书本教机器智能，现在是智能教智能，博士生相互之间交流进行训练！

OpenAI 认为自己摸索出了一条新的训练方式即：多个大模型相互交互方式的，数据的生成和训练能力！{alertSuccess}

## API 接口

GPT -5
GPT-5 mini
GPT-5 Nano

GPT-5 推理版本特殊版 minimal

## API的新增功能方面

### 自定义Tools -- 结构化输出扩展

以前模型在输出比如JSON长参数时候，比如：JSON中的100行控制字符，这个时候只能是纯文本格式。

定义了一种结构化的输出方式，你可以指定正则表达式输出、甚至是自由TXT ，你可以将输出规定为DSL、让模型始终遵循指定的输出格式。

### 启用工具调用功能

这是新增O3 没有的功能，并不是新的模型功能！用户可以在调用前，自定义需要调用的工具！

### API 模型鲁棒性调整能力

low/medium/high 调整模型的输出能力

GPT-5模型不同鲁邦性

指令跟随

指模型根据用户提供的自然语言指令来生成符合意图的响应的能力。

COLLIE OpenAI 个人是不认可这个结果

OpenAI 使用第三个图形的参考！内部测试结果

Instruction Following

Agent 工具调用能力

测试的GPT-5 对于工具调用、解决挑战性问题

工具使用

400K的上下能力

在128k-256k上下文窗口是最优秀的，这里参考的OpenAI MRCR 开源上下文检索测试标准！

## API的价格如下

GPT-5: $1.25/million for input, $10/million for output.

## 总结

GPT-5 更加注重在现实世界中的实际应用能力！

OpenAI 认为目前的基准测试不是唯一的评价标准！

基准测试已经开始饱和，当你在98%到99%移动的时候，这意味你需要一些其他特征来捕捉到这个模型有多棒。

问题

GPT-5 测试结果，没有涉及其他厂商模型测试结果
相关测试结果有部分来自OpenAI开源的测试标准

## 后续遗憾

应该增加有其他厂商的对比测试结果！

新的训练方式，应该给出点具体数据！

版权声明：感谢您的阅读，资源整理自网络，如果您发现任何侵权行为，请联系理科生网管理人员，管理员将及时删除侵权内容。否则均为理科生网原创内容，转载时请务必以超链接(而非纯文本链接)标注来源于理科生网及本文完整链接，感谢！{alertInfo}

Ahmedabad