V
主页
OpenAI 创始人 John Schulman 访谈节选:为什么 GPT-4 比一年前更“聪明”了?
发布人
OpenAI 创始人 John Schulman 访谈节选:为什么 GPT-4 比一年前更“聪明”了?主要都是后训练(Post-Training)带来的! 另外他认为,在强化学习研究领域,研究人员需要具备丰富的经验和敏锐的直觉。了解整个技术堆栈,并对各个部分充满好奇心是关键。此外,从第一性原理出发思考问题,而不仅仅依靠实验证据,也能够帮助研究人员在数据操控和环境设置方面做出更好的决策。 *** Dwarkesh Patel:在未来,用于训练的计算力中,预训练与后训练的比例是否会明显偏向后训练呢? John Schulman:确实,有一些观点支持这种说法。 Dwarkesh Patel:我是说,现在这个比例非常不平衡。 John Schulman:但你可以认为,模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我会说,我们通过后训练取得了很多进步。因此,我不确定。所以,我希望我们会继续推动这种方法,并且可能会增加投入到后训练中的计算力。 Dwarkesh Patel:当前的 GPT-4 的 ELO 分数比最初发布的版本高出了大约 100 分。这是否全都是后训练带来的改进呢? John Schulman:对,我会说大部分都是后训练带来的。 Dwarkesh Patel:这很有意思。 John Schulman:因此,有很多不同的改进方向。我们会考虑数据质量,数据数量,进行更多的部署和收集新数据的迭代,改变你收集的注解种类。因此,有很多因素叠加在一起。但是全部加在一起,就会带来一个相当不错的,有效的计算力提升。 Dwarkesh Patel:后训练的优化程度对于竞争优势有多大影响呢? John Schulman:目前,我会区别公司是通过我们的模型有多大等等。那么,找出你之前提到的所有这些数据的复杂问题的公司,会占据大优势吗? John Schulman:我认为这确实是一个优势,因为这是一个非常复杂的任务。因此,你必须有很多有技能的人来执行它。因此,存在大量的隐性知识。同时也需要大量的组织知识。我认为后训练的过程,创建一个具备人们所关心的所有功能的模型,是十分复杂的。这需要付出大量的努力,它是大量研发工作的积累。我会说这种情况在某种程度上形成了一种壁垒,要想立即启动这种模型并非易事。 Dwarkesh Patel:看起来那些正在进行最严肃的预训练努力的公司,也在进行严肃的后训练努力。因此,看起来这种模型有可能被复制或有更多的类似努力出现。 John Schulman:另外,还有一种情况使得这个壁垒并非那么明显,那就是你可以提取模型,或者复制别人的模型输出,或者使用别人的模型进行比较。我认为大公司可能并不会这样做,因为这违反了服务条款,也会损害他们的自尊心,但我预计一些规模较小的参与者可能正在这样做以便更好地起步。 Dwarkesh Patel:那些真正擅长进行这种强化学习(RL)研究的人有什么样的特质呢?我听说这种研究非常具有挑战性,但是什么样的直觉能帮助你找到操控数据和设置环境的方法呢? John Schulman:我觉得有相当多的经验是关键。自从研究生时期以来,我一直在研究 RL 算法,涉及到数据收集、到注释过程,再到与语言模型的交互。所以,我算是涉猎了这些领域。我认为,在这类研究中表现出色的人通常对整个技术堆栈有全面的了解,并且对其中的各个部分充满好奇心。他们不仅依靠实验证据来更新自己的观点,还会从第一性原理出发思考问题。比如,假设深度学习是有效的,那么理想的收集数据的类型应该是什么,等等。 https://www.youtube.com/watch?v=JclnqKZBTUU
打开封面
下载高清视频
观看高清视频
视频下载器
GPT-5 会比 GPT-4 更聪明, GPT-6 会比 GPT-5 更聪明, 而且我们还远未到达这个曲线的顶部
前方高能,这27个变态AI,一定要偷偷用起来!
福布斯采访 Perplexity 创始人:Perplexity 让你在互联网上找到更好的答案
最近 CNBC 对 Airbnb CEO Brian Chesky 采访的一段视频,谈到了去年 OpenAI 宫斗以及 Airbnb 在 AI 的应用
初为人父不会讲故事?GPT-4o 教你讲故事!
自学ComfyUI 400天的心得 看完少走一年弯路 #ai绘画
号称第一个 AI 工程师的 Devin,估值 20亿美元,CEO Scott Wu 的一段访谈
扎克伯格更担心某些我们不信任的人掌握了超级 AI,有了优秀的开源 AI 反而可以帮助引领标准,确保一个更公平、更均衡的竞争环境,达到平衡
OpenAI 联合创始人 Andrej Karpathy 在2024年加州大学伯克利分校人工智能黑客马拉松颁奖典礼上的主题演讲
【国内白嫖】11月19日最新ChatGPT4.0
Devin CEO Scott Wu 背后不为人知的故事
谷歌 DeepMind CEO Demis Hassabis 认为人工智能短期被过度炒作,但是长期潜力被低估(双语字幕)
Mistral 入门指南 —— 如何写提示词
The Prompt with Trevor Noah | 第1集:IHME 人口制图
AI泡沫为什么没有破?
到 2025 年,AI 模型会更像你的同事而不是一个搜索引擎
NVIDIA超算2024特别发布| 黄仁勋致辞 2024.11.19【中英精校】
面临终极抉择!台积电将停供所有7nm AI芯片?对中国半导体产业影响有多大?要如何应对?
马斯克 xAI放大招!Grok-2 最新版开启免费公测,每人每月送25美金!吊打ChatGPT?深度体验揭秘!| 零度解说
Suno 联合创始人 Mikey Shulman 亲自示范文本转音乐的人工智能技术
Moderna 与 OpenAI 合作,加速开发挽救生命的治疗方法
盘点一周AI大事(11月17日)|Grok证明黎曼猜想?
The Prompt with Trevor Noah | 第3集:AI 如何帮助放射科医生更早更准确地检测乳腺癌
是什么让大语言模型有了推理的能力?
No Priors 采访 OpenAI 的 Sora 团队负责人 Aditya Ramesh, Tim Brooks 和 Bill Peebl
The Prompt with Trevor Noah | 第6集:有时AI是唯一的解决方案
OpenAI CEO 访问哈佛全球社会商业研究所
谁敢信我用AI全自动生成小说!
【开源】如何手工打造一台理想中的机器人?
Grok-3证明了黎曼猜想!AI智力水平远超人类最聪明的大脑!
比尔盖茨在 1995 年的一次电视采访视频
什么事情被这些公司隐藏了?- Rabbit R1 - Humane AI Pin
加拿大总理特鲁多说将花费24亿美元在AI相关的项目上。
福布斯今年人工智能 50 强榜单对人工智能行业的启示
OpenAI GPT-4o 当冷知识竞赛裁判,竟然能判断出谁抢答成功
Google 前 CEO 埃里克·施密特近期在斯坦福 CS323 课堂上的访谈(后续二/完结)
北大发布多模态大模型LLaVA-o1,推理计算Scaling新思路
亲身体验 Google Gemini:与多模态人工智能互动
Linus Torvalds 畅谈人工智能对编程的影响
一起学多 AI 智能体系统(双语字幕)- 1. 介绍