- 课程回放
交互式训练中语言变形问题研究及应用
机器学习前沿讲座 2020/08/14 10:00:00
课程讲师
课程提纲
- 什么是语言变形问题
- 交互式训练中的种子迭代学习
- 在lewis signal游戏中的探索及应用扩展
课程简介
在过去的一段时间,神经网络监督学习通过建模文本的统计信息可以取得很好的成果,但是这些模型在一个目标导向(goal oriented)的场景下却无法有效的通过语言去解决任务。当人们尝试使用类似SelfPlay的训练方式去最大化那些任务指标的时候,他们发现agent会发生语言变形(Language Drift)的情况:虽然任务的分数有所提高,但是agent开始使用的是自己“独创”的语言,而不是一开始监督训练时候的人类文本。
由于仅专注于解决任务,它们逐渐失去了语言的句法和语义特性。而蒙特利尔大学MILA实验室的陆玉晨等人提出了一种使用迭代学习来对抗语言变形的通用方法。在具有交互式训练步骤的微调代理之间进行迭代,并定期使用从上一次迭代播种并经过训练以模仿最新微调模型的新代理替换它们。因为迭代学习不需要外部语法约束或语义知识,因此是一种有价值的与任务无关的微调方法。
8月14日上午10点,智东西公开课邀请到蒙特利尔大学MILA在读博士在读博士陆玉晨参与到「机器学习前沿讲座」第6讲,带来主题为《交互式训练中语言变形问题研究及应用》的直播讲解。陆博士将从语言变形问题的定义出发,深度讲解交互式训练中的种子迭代学习方法,并介绍其在lewis signal游戏中的探索及应用扩展。
陆玉晨是蒙特利尔大学MILA的在读博士,主要的研究方向是emergent communication, language for RL以及对话系统,在ICML、NeurIPS等顶会发表多篇论文。陆博本科曾经就读于上海交通大学以及伊利诺伊大学香槟分校。
精彩问答
提问
提问