20年营销型网站设计公司 提高你的知名度 提高业绩量
发布时间:2023-05-17 08:42:37
为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见。在上周发布的《John Schulman:通往TruthGPT之路》一文中,OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习(RLHF)方面的进展,分析了监督学习和强化学习各自存在的挑战。
基于Schulman的演讲内容,以色列巴伊兰大学教授Yoav Goldberg对强化学习在大型语言模型应用必要性作了深度解读,进一步对比论证了监督学习与强化学习的特点,并为未来改进提供了思路。
Goldberg在2011年获得本古里安大学博士学位,他也是艾伦人工智能研究所以色列分部的研究主管,他也曾在Google(纽约)研究院担任研究科学家。他在NLP领域深耕十多年,在词汇语义学、句法分析及对基于深度学习的语言处理等领域作出了突出贡献。
(以下内容由OneFlow编译发布,转载请联系OneFlow获得授权。来源:https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81)
作者|Yoav Goldberg
OneFlow编译
翻译|贾川、徐佳渝、杨婷
为什么要使用强化学习。
随着ChatGPT等大型语言模型的发布,关于“RLHF训练(即基于人类反馈的强化学习训练)”的重要性已经有了很多讨论。在训练语言模型方面,我曾经很困惑,为什么强化学习比从演示中学习(也称为监督学习)更好,或者从演示中学习(或语言模型术语中的“指导性微调”,学习模仿人类写的答案)是不够的。
我提出了一个令人信服的理论论点。但我意识到还有另一个论点,不仅支持RL培训,而且特别是像ChatGPT这样的模型。OpenAI的John Schulman在他的演讲的前半部分详细介绍。这篇文章的大部分引用了约翰的论点,但增加了一些他没有明确说明的东西(虽然我相信约翰思考过这些问题)。
文提供了大量的背景知识,以保证读者能够更好地理解文章的内容。如果你想了解文章的主要观点,可以直接进入“核心论点”部分。
2。
背景:监督学习与强化学习。
简单解释一下这两种学习场景,以便大家达成共识。如果你已经知道这些东西,可以跳过这部分。
预训练:在这两种设置中,首先我们假设语言模型针对大量文本进行了预训练,以预测下一个令牌。因此,对于每个单词序列,我们都有一个模型,该模型为潜在的下一个单词选项分配概率。通过这种方式,模型获得了语言的一些内部表示。
经过这个过程,模型生成文字的能力会变得更强,可以根据给定的文字前缀生成符合自然习惯的后续文字,但它不擅长“沟通”。例如,当提示(提示)一个问题时,模型可能回答该问题或生成一系列附加问题,它也可能回答这是在.的上下文中提出的一个重要问题。诸若此类。
这些是自然语言文本问题之后的有效延续。我们可以通过编写输入文本来让模型执行我们想要的语言行为,continuation将解决我们的问题(也称为“提示工程”),但让模型只通过提问或指令来回答这种交互模式对于非专家用户来说不是很方便。
如果我们想让模型继续回答查询,而不仅仅是完成当前指令,我们需要引导它。这个过程被称为“微调”,也就是说,继续对训练前的模型进行训练,使其表现为我们所希望的(有些人称之为模型与用户期望行为的“对齐”)。
监督式训练:在监督式学习(也称为从演示中学习或指令微调)中,我们以问题或指令的形式收集一组人类编写的文本,其中包含所需的输出。例如,这个文本可以是一个特定的问题和答案,或者是一个任务,比如用人工编写的摘要总结下面的文本{text}。
通过继续在相同的“预测给定前缀的下一个令牌”的目标上训练模型,但这次是在一组指令-输出对上,该模型通过执行指令来学习响应。也就是说,对于给定的问题,模型接收正确输出的示范,并学习复制输出。通过这种方式,我们希望归纳到培训中尚未出现的问题。
强化学习(RL):在强化学习中,我们提供的模型与指令,但不是人写的答案。模型需要自己生成答案。评分机制(如人)读取生成的答案,并告诉模型这些答案的质量。模型的目标是如何回答才能得到高分。
另一种机制是模型生成多个答案,评分机制告诉模型哪个答案是好的。该模型的目标是学习生成高分答案,而不是低分答案。在这两种情况下,模型通过生成答案和接收反馈进行学习。(注:许多研究者根据学分分配机制,将强化学习的范围限定在某些技术方面。对于他们来说,“我们是否需要强化学习”的问题可能会归结为我们是否应该使用这种技术,或者用其他相关技术来取代它。我和他们一样好奇,但就本文而言,我认为任何使用外部评分函数的方法都可以被认为是强化学习,不管它是如何工作的。)。
强化学习要比监督训练难得多,原因如下:首先,有“学分分配”的问题。语言模型生成一个令牌序列,并且只在序列的末尾获得一个分数。由于信号较弱,我们无法确定答案的哪些部分是好的,哪些部分是坏的。许多关于强化学习的相关技术研究都试图解决这个问题,但在本文中我们将不讨论这个问题。
信贷分配问题是一个活跃的研究领域,但合理的解决方案已经存在。其次,我们需要一个评分机制来给一个答案打分(或者给一个答案打分或者比较两个答案),而在基于语言的任务中很难生成自动评分机制(尽管这可能正在改变,下面简要讨论)。
因此,我们将在强化学习的每一步都留下“人类反馈”,但这将是昂贵和低效的,而且考虑到每个人类反馈只能给出一个相当稀疏的信号,问题将更加严重。基于以上的难点,我们为什么要用强化学习呢?为什么不直接选择监督学习。
咨询电话:0317-3741708
业务QQ: 44963430E-mail:yflabc@163.com
客服:0317-3741708
渠道合作QQ:44963430
沧州佳恩网络科技有限公司,是一家专业从事网站建设、 品牌设计、产品拍摄的企业。公司汇集了网站建设,品牌设计,电商设计,为企业提供一站式的服务, 公司各类专业人才,均在各自领域工作5年以上,有着丰富的经验!
有这样一群人,
他们愿意把自己的全部能量挥洒在这里,愿意把对事业的美好憧憬寄托在这里,
愿意忘记时间的流转并把对生活的热情融入这里。这里没有沉闷的交流,没有超越忍耐的合作,
没有失去自由的畅想,没有无法逾越的隔阂;
有的是心照不宣,轻松和谐;有的是放纵思绪,丰富且自得。