Sam 重回 OpenAI，Q-star 被曝光！

Original lencx 浮之静 2024-03-10

最近追这些信息太累了，我想通过这篇文章来简单收个尾（万字长文：没有员工，OpenAI 什么也不是！）。内幕消息五花八门，每天都会出现各种爆料，真真假假，看多了有点麻木！这是网上传出的一张宫斗人物关系图：

官方推文

昨天一天（2023.11.22），OpenAI 更新了五条推文：

ChatGPT 现已为所有免费用户提供语音功能。在手机上下载应用程序，点击耳机图标开始对话（结果直接服务宕机，了解更多：OpenAI 太疯狂了，ChatGPT 语音彻底免费！）。
我们已原则上达成协议，让 Sam Altman 以新的初始董事会成员 Bret Taylor（主席）、Larry Summers 和 Adam D'Angelo 的组成下，重返OpenAI 担任首席执行官。
引用 Greg Brockman 帖子发 “❤️”：重返 OpenAI，今晚回归编码。
引用 Sam Altman 帖子发 “❤️”：我热爱 OpenAI，过去几天我所做的一切都是为了保持这个团队及其使命的团结。当我在周日晚上决定加入微软时，很明显这是我和团队的最佳路径。在新董事会和 Satya（微软 CEO）的支持下，我期待重返 OpenAI，并在我们与微软的牢固合作关系上继续建设。
OpenAI 再次提到 没有团队的 OpenAI 就是空壳，引用 Brockman 的集体合照：我们又回来了！

新董事会

Sam Altman 重回 OpenAI 担任 CEO，董事会大换血，由 Bret Taylor、Larry Summers 和 Adam D'Angelo 组成。

Bret Taylor

出生：1980 年
Bret Taylor^[1]

Bret Taylor 是一位著名的美国计算机程序员和企业家，在科技行业有着显著的影响力和成就。Taylor 曾参与整合谷歌收购的 Where 2 Technologies，该公司后来被重新命名为谷歌地图。曾在 Facebook（现 Meta Platforms）担任首席技术官，曾任 Twitter, Inc.董事会主席（直到 2022 年 10 月 Elon Musk 收购 Twitter 后，整个董事会被解散）。

Bret Taylor 毕业于斯坦福大学。他的职业生涯始于谷歌，离开谷歌后创立 FriendFeed 被 Facebook 收购（收购使 Facebook 采纳了 FriendFeed 的 “Like” 按钮，即点赞按钮），之后加入 Facebook 成为首席技术官。Taylor 还创立了 Quip 并将其出售给 Salesforce，在 Salesforce 担任多个高级职位，包括首席产品官和首席运营官。2023 年 11 月，Bret Taylor 接替 Greg Brockman 成为 OpenAI 董事会主席。

📌 点赞的起源
“赞”按钮，作为一种社交媒体和在线通讯平台的常见功能，允许用户表达对某些内容的喜爱、享受或支持。这个功能不仅显示了点赞该内容的用户数量，还可能展示这些用户的全部或部分名单，提供了一种量化的方式来表达对内容的反应，这与撰写回复文本等其他表达方式不同。除此之外，有些网站还提供“不喜欢”按钮，让用户可以选择支持、反对或中立地投票。还有一些网站采用了更复杂的内容投票系统，如五星级评分或表情反应按钮，以展示对内容的更多元化情感反应。
关于“赞”按钮的具体实施案例包括：视频分享网站 Vimeo 于 2005 年 11 月增加了“赞”按钮，该功能被其开发者 Andrew Pile 描述为对 Digg.com 网站 “digg” 按钮的一个迭代。社交网络服务 FriendFeed 在 2007 年 10 月 30 日推出了赞按钮，并在该社区中迅速流行起来。后来，这一功能在 Facebook 收购 FriendFeed 之前被整合进 Facebook，因此 FriendFeed 被普遍认为是 "Like" 按钮概念的先驱。

Larry Summers

出生：1954 年 11 月 30 日
Lawrence H. Summers^[2]

Larry Summers 是一位美国经济学家，曾于 1999-2001 年担任第 71 任美国财政部长，以及 2009-2010 年担任国家经济委员会主任。他还在 2001-2006 年间担任哈佛大学（Harvard University）校长，目前是哈佛大学的查尔斯·W·艾略特大学教授（Charles W. Eliot university professor），并担任哈佛肯尼迪学院（Harvard Kennedy School）的 Mossavar-Rahmani 商业与政府中心主任。2023 年 11 月，Summers 加入了人工通用智能公司 OpenAI 的董事会。

Adam D'Angelo

出生：1984 年 8 月 21 日
Adam D'Angelo^[3]：Quora 首席执行官（CEO），致力于 Poe^[4]

Adam D'Angelo 是一位知名的美国互联网企业家，以联合创立并担任 Quora 首席执行官而闻名。他曾是 Facebook 的首席技术官和工程副总裁，直到 2008 年。2009 年，他创立了 Quora，并在 B 轮融资中投资了 2000 万美元。D'Angelo 还是 OpenAI 董事会的成员。

D'Angelo 在菲利普斯埃克塞特学院完成高中学业，并在加州理工学院（California Institute of Technology）获得计算机科学学士学位。他与 Mark Zuckerberg 共同开发了 Synapse Media Player，并创建了 BuddyZoo 网站。

他在青少年时期就在计算机编程竞赛中取得了显著成就，包括在美国计算机奥林匹克竞赛和国际信息学奥林匹克竞赛中获奖，以及在 ACM 国际大学生程序设计竞赛中获得多项荣誉。

D'Angelo，作为一位技术专家和投资者，于 2018 年加入了 OpenAI 的董事会，并在 2023 年参与投票决定撤销 Sam Altman 作为 OpenAI 首席执行官的职位。在 Altman 重返 OpenAI 时有两名董事会成员离职，但 D'Angelo 的职位却得到了保留。在领导风格上，他以对变革的抗拒和对信任的谨慎态度著称，这些特点在 OpenAI 董事会关于 Altman 的讨论中显得尤为突出。此外，他在 Quora 的管理中也展现了类似的特质，故他在科技领域的公众形象较低，与行业内常见的市场营销和媒体互动方式有所不同。

Q*（Q-Star）

Elon Musk 在 Ilya Sutskever 的帖子下有这样一个评论：”这封信指的是什么？“。它引出了另一个惊天大瓜，本以为要完结的故事，又要开始新的转折。这篇“独家报道”具体内容我也整理出来了，它提到了一个新名词 “Q*”。

独家报道：OpenAI 研究人员在 CEO 被解职前向董事会警告 AI 突破

翻译：lencx
原文：Exclusive: OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say^[5]

路透社 11 月 22 日报道，OpenAI 首席执行官 Sam Altman 在被迫离职前的四天内，公司内部的一些研究人员向董事会发出警告，称他们发现了一种可能对人类构成威胁的强大人工智能技术。这一消息由两位熟悉内情的人士透露。这封之前未曾被公开报道的信件及其涉及的 AI 算法是奥特曼被董事会解职前的关键事件。

在 Altman 周二晚些时候返回公司之前，超过 700 名 OpenAI 员工曾威胁要辞职（联名签署公开信），表示将与他们的主要支持者微软站在一起，以表达对被解雇领导的支持。知情人士指出，这封信是导致奥特曼被解雇的众多因素之一，主要是董事会对在未完全理解后果前就将技术商业化的担忧。

在路透社联系 OpenAI 之后，公司拒绝对此事发表评论，但在内部向员工确认了名为 Q* 的项目以及在周末事件前向董事会发送的信件。一位发言人表示，这是由高级执行官 Mira Murati 发送的消息，仅提醒员工注意某些媒体报道，并未对报道的准确性发表评论。

OpenAI 内部一些人认为，Q*（发音为 Q-Star）可能是该公司在追求所谓的人工通用智能（AGI）方面的一个重大突破。AGI 被定义为在大多数经济价值高的任务中能够超越人类的自主系统。据匿名人士透露，得益于庞大的计算资源，这个新模型能够解决某些数学问题。尽管它目前只能完成小学生水平的数学题，但研究人员对 Q* 的未来发展抱有很大期望。

但是，路透社无法独立验证研究人员对 Q* 所声称的能力。研究人员认为数学是 AI 发展的一个前沿领域。与目前的生成式 AI 不同，后者擅长写作和语言翻译，但对同一个问题的答案可能大相径庭，AI 在数学上的突破意味着它可能具有更接近人类的推理能力，这可能应用于全新的科学研究。

研究人员在给董事会的信中提到了 AI 的强大能力和潜在危险，但没有具体说明信中提到的安全问题。长期以来，计算机科学家们一直在讨论高度智能机器可能带来的危险，例如它们可能会认为摧毁人类符合它们的利益。

另外，研究人员还提到了一个由“代码生成”和“数学生成”团队合并而成的 “AI 科学家”团队，该团队正致力于优化现有 AI 模型，以提高它们的推理能力，并最终执行科学工作。

Altman 曾领导 ChatGPT 成为历史上增长最快的软件应用之一，并吸引了微软的投资和计算资源，以更接近 AGI 的目标。除了本月早些时候公布了一系列新工具外，奥特曼上周在旧金山的世界领袖峰会上暗示，他相信重大进展即将到来。

他在亚太经合组织峰会上说：“在 OpenAI 的历史上，我已经四次有幸见证我们将无知的面纱推开，将发现的前沿推进，能够做到这一点是我职业生涯中的荣誉。”然而，就在他发表这番言论的第二天，董事会便解除了他的职务。

补充信息

OpenAI 研究团队的一项技术突破，该突破可能使得开发更强大的人工智能模型成为可能。这项由首席科学家 Ilya Sutskever 领衔的研究解决了在获取高质量数据训练新模型的限制，这一直是开发下一代模型的主要障碍。与依赖互联网真实世界数据不同，他们的研究主要使用计算机生成的数据。

Sutskever 多年来一直致力于研究，尤其是让语言模型像 GPT-4 这样的系统能够解决涉及推理的任务，比如数学或科学问题。2021 年，他启动了 GPT-Zero 项目，以向 DeepMind 的 AlphaZero 程序致敬。

利用这些研究成果，OpenAI 的研究团队构建了一个能解决基础数学问题的系统，这在现有 AI 模型中一直是一个难题。两位顶尖研究人员 Jakub Pachocki 和 Szymon Sidor 利用 Sutskever 的研究成果，开发了一个名为 Q*（Q-Star）的模型。

然而，这项技术突破也引发了一些员工的担忧，他们认为公司在商业化这些高级 AI 模型时可能缺乏适当的安全措施。在 AI 的快速发展过程中，安全和伦理问题是不可忽视的重要方面。

如果对 Q-Star 感兴趣，可以查看这两个评论区的讨论:

Reddit - What is Q*?^[6]
OpenAI Developer Forum - What is Q*? And when we will hear more?^[7]

📌 使用过程监督改善数学推理
原文：Improving mathematical reasoning with process supervision^[8]
在 ”What is Q*?“ 的评论中引用了 OpenAI 2023 年 5 月 31 日发表过的一篇文章，有人表示文章内容与他听到的 Q* 基本一致。
文章主要描述了一种使用过程监督来改善数学推理的方法。相比于传统的结果监督，这种方法通过奖励正确推理的每一步骤来训练模型，而不仅仅是正确的最终答案。这种方法不仅提高了性能，还直接训练模型产生人类认可的思维链，从而更好地对齐人类的认知过程。
研究者们使用 MATH 数据集进行了测试，比较了过程监督和结果监督两种方法的效果。结果显示，过程监督在解决数学问题方面表现更优，即使是在以结果为基础的评价标准下也是如此。这种方法还有助于减少 AI 模型的逻辑错误（幻觉），这对于构建对齐的人工通用智能（AGI）至关重要。
此外，过程监督在解释性和对齐性方面优于结果监督。它鼓励模型遵循人类认可的推理过程，使得推理过程更容易被理解和审查。研究还发现，尽管通常认为对齐会导致性能下降（称为对齐税），但在这种情况下，过程监督实际上提高了性能，即产生了负对齐税。

值得一提的是，Wiki 已经出现该词条 Q*^[9]：Q* 是 OpenAI 尚未发布的一个项目，专注于人工智能在逻辑和数学推理方面的应用。2023 年 11 月，公司的一些员工向董事会警告说，Q* 可能预示着人工通用智能的即将出现。据一些消息来源称，正是这封警告信导致董事会解雇了首席执行官 Sam Altman。

Q* & Q-learning

以下内容由 lencx 通过与 GPT-4 对话总结获得，仅作为参考。

在人工智能，特别是在强化学习领域，Q* 和 Q-learning 是非常重要的概念。通过一个简单的例子，比如教机器人在迷宫中导航，我们可以理解这两个概念的基本原理。机器人最初不了解迷宫的布局，但它通过尝试不同的路径并观察哪些路径能够通往出口来学习。

Q-learning 是强化学习中的一种方法，帮助机器人学习在不同情况下采取最佳行动（比如在迷宫的某个点移动左、右、前或后）。Q 值（Q-value）是 Q-learning 中的一个分数，代表在特定情况下某个行动（action）的优劣。Q*（即 Q-star）代表每个行动在每种情况下的理想或最优 Q 值。这就像拥有一本指南书，告诉机器人在迷宫的每个点上应该如何最有效地移动以达到出口。

这些概念在游戏中的应用尤为强大。在诸如国际象棋、围棋或甚至电子游戏这样的复杂游戏中，Q-learning 有助于识别最优策略。算法使 AI 系统能够适应不同的游戏场景，并在游戏中不断改进其策略。这种适应性在游戏中至关重要，因为每个游戏场景都不完全相同。

Q-learning 和 Q* 的区别在于，Q-learning 是一种学习过程，通过探索环境、决策并观察结果来进行。随着时间的推移，机器人或 AI 系统将提高其对最有利行动的预测能力。而 Q* 则是理想或最优 Q 值的集合，代表在任何环境状态下最佳行动的理论概念。Q-learning 的目标是使代理（agent）的 Q 值尽可能接近 Q*。

将这一概念应用于国际象棋游戏，Q* 将代表在棋盘上任何给定情况下的最佳棋步选择。它是理想的战略指导，考虑了所有可能的场景及其结果。而 Q-learning 则是 AI 通过玩游戏、做出棋步并观察结果来发现这些最佳选择的方法。随着时间的推移，通过这种探索和学习的过程，AI 的选择会逐渐改善，并开始接近代表着最优策略的 Q*。

总结一句话就是：Q-learning 是机器人或 AI 系统在游戏中学习和发现的过程，而 Q* 则是它们努力学习的目标——游戏中的最佳棋步。

📌 细节补充
以下这些细节可以帮你更全面地理解 Q-learning 和 Q* 在解决实际问题和游戏中的作用和潜力：
探索与利用（Exploration and Exploitation）：Q-learning 过程中的一个关键方面是平衡探索（尝试新的或不熟悉的行动以了解它们的效果）和利用（使用已知的信息来做出最佳决策）。这是决定 Q-learning 效率的关键因素。
奖励函数（Reward Function）：在 Q-learning 中，奖励函数的设计至关重要。它定义了 AI 在采取特定行动时所获得的即时奖励。正确的奖励设计可以引导学习过程更快地收敛到 Q*。
学习率和折扣因子（Learning Rate and Discount Factor）：学习率决定了新信息覆盖旧信息的速度，而折扣因子则决定了未来奖励的当前价值。这两个参数在 Q-learning 算法中起着调节作用。
无模型学习（Model-Free Learning）：Q-learning 是一种无模型的学习方法，意味着它不需要关于环境的先验模型。这使得它适用于复杂和不可预测的环境。
收敛性（Convergence）：在理想条件下，Q-learning 保证了学习过程会收敛到最优策略 Q*。但这个过程可能需要大量的时间和数据。
应用范围扩展：虽然 Q-learning 在游戏中的应用非常著名，但它也被广泛应用于其他领域，如机器人控制、自动驾驶车辆、资源管理等。

其他资讯

Claude 2.1

2023 年 11 月 21 日，Claude 发布了 2.1 版本，它是一款新的 AI 模型。提供行业领先的 20 万 token 上下文窗口和显著降低的幻觉率（降低了 2 倍），这意味着它可以处理大量数据（大约 150K 单词或超过 500 页的信息），如代码库、财务报表或长篇文学作品，用于总结、问答、趋势预测等，同时在诚实度和准确性方面有显著提升。Claude 2.1 还集成了用户现有流程和 API，支持跨功能协调。此外，新的 Workbench 功能改善了开发者体验，使测试提示更加简便。了解更多 Introducing Claude 2.1^[10]。

Google Bard

Google Bard^[11] 现在能够通过其 YouTube 扩展来处理关于特定视频内容的复杂查询。它不但能够回答视频的任何问题，甚至能够在几秒钟内总结一个几小时视频中的特定对话，真正做到了理解视频内容。用户只需提供一个 YouTube 链接就可以开始与 Bard 进行互动，这种全新的互动和获取信息的方式，可能会在线教育方面产生重大变革。

References

[1]

Bret Taylor: https://twitter.com/btaylor

[2]

Lawrence H. Summers: https://twitter.com/lhsummers

[3]

Adam D'Angelo: https://twitter.com/adamdangelo

[4]

Poe: https://poe.com

[5]

Exclusive: OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say: https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22

[6]

Reddit - What is Q*?: https://www.reddit.com/r/OpenAI/comments/181n8am/what_is_q

[7]

OpenAI Developer Forum - What is Q*? And when we will hear more?: https://community.openai.com/t/what-is-q-and-when-we-will-hear-more/521343/18

[8]

Improving mathematical reasoning with process supervision: https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

[9]

Q*: https://en.wikipedia.org/wiki/Q*

[10]

Introducing Claude 2.1: https://www.anthropic.com/index/claude-2-1

[11]

Google Bard: https://bard.google.com

继续滑动看下一个

Sam 重回 OpenAI，Q-star 被曝光！

Original lencx 浮之静

浮之静

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

反内卷之都，这座直辖市藏不住了

Sam 重回 OpenAI，Q-star 被曝光！

官方推文

新董事会

Bret Taylor

Larry Summers

Adam D'Angelo

Q*（Q-Star）

独家报道：OpenAI 研究人员在 CEO 被解职前向董事会警告 AI 突破

补充信息

Q* & Q-learning

其他资讯

Claude 2.1

Google Bard

References

Sam 重回 OpenAI，Q-star 被曝光！

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

反内卷之都，这座直辖市藏不住了

生成图片，分享到微信朋友圈

Sam 重回 OpenAI，Q-star 被曝光！

官方推文

新董事会

Bret Taylor

Larry Summers

Adam D'Angelo

Q*（Q-Star）

独家报道：OpenAI 研究人员在 CEO 被解职前向董事会警告 AI 突破

补充信息

Q* & Q-learning

其他资讯

Claude 2.1

Google Bard

References

Sam 重回 OpenAI，Q-star 被曝光！

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！