GPT-4o 讨好式行为:我们为何回滚更新以及下一步计划
我们已经回滚了上周在 ChatGPT 中进行的 GPT-4o 更新,因此用户现在使用的是一个行为更加平衡的早期版本。我们移除的这个版本过于迎合或顺从,常常被用户形容为“讨好式”的。
我们正在积极测试新的修复方案来解决这个问题。我们正在调整收集和整合用户反馈的方式,以更重视用户的长期满意度,并且正在引入更多的个性化功能,让用户能更好地控制 ChatGPT 的行为。
我们希望解释一下到底发生了什么、为什么这件事很重要,以及我们正在如何解决这种讨好式行为。
发生了什么
在上周的 GPT-4o 更新中,我们进行了调整,旨在改善模型的默认“人格”,使其在多种任务中感觉更直观和有效。
在塑造模型行为时,我们首先会遵循我们的《模型规范》中概述的基本原则和指令。我们还会通过整合用户的信号来教导模型如何应用这些原则,例如用户在 ChatGPT 回应中给出的“点赞”或“点踩”反馈。
然而,在这次更新中,我们过于关注短期反馈,没有充分考虑到用户与 ChatGPT 的互动是如何随时间演变的。结果,GPT-4o 倾向于给出过于支持但缺乏真诚的回应。
为什么这件事很重要
ChatGPT 的默认“人格”深刻影响着你的体验和对它的信任。讨好式的互动可能会让人感到不舒服、不安甚至烦恼。我们做得不够好,正在努力纠正。
我们的目标是让 ChatGPT 帮助用户探索想法、做出决策或构想可能性。
我们设计的 ChatGPT 默认人格旨在反映我们的使命,即有用、支持并尊重不同的价值观和经验。然而,每一个我们期望的特质,例如“有用”或“支持”,都可能带来意想不到的副作用。并且,每周有 5 亿人在使用 ChatGPT,他们来自各种文化和背景,一个单一的默认设置无法满足所有人的偏好。
我们如何解决讨好式行为
除了回滚最新的 GPT-4o 更新,我们正在采取更多措施来重新调整模型的行为:
- 改进核心训练技术和系统提示,明确引导模型避开讨好式行为。
- **建立更多“护栏”**来增强我们《模型规范》中的原则:诚实与透明。
- 扩大在部署前进行测试和直接反馈的用户群体。
- 继续扩展我们的评估,基于《模型规范》和我们正在进行的研究,以帮助未来发现除了讨好式行为之外的其他问题。
我们还认为用户应该对 ChatGPT 的行为有更多控制权,并在安全和可行的情况下,允许用户在不同意默认行为时进行调整。
目前,用户可以使用“自定义指令”等功能为模型提供具体的指令来塑造其行为。我们还在构建新的、更简单的方式来实现这一点。例如,用户将能够给出实时反馈来直接影响他们的互动,并从多个默认人格中进行选择。
此外,我们正在探索新的方法,将更广泛、更民主化的反馈融入到 ChatGPT 的默认行为中。我们希望这些反馈能帮助我们更好地反映世界各地多元的文化价值观,并理解你希望 ChatGPT 如何演变——不仅仅是单次互动,而是长期持续地发展。
我们非常感谢所有对此提出意见的用户。是你们的反馈帮助我们为你们构建更实用、更好的工具。