少样本数据的文本分类和命名实体识别研究

课程回放

少样本数据的文本分类和命名实体识别研究

NLP前沿讲座 2020/11/27 10:00:00

课程讲师

陈佳奥佐治亚理工学院在读博士

导师为Diyi Yang；主要研究方向为自然语言处理和机器学习，在相关领域的国际顶级会议如ACL, EMNLP, NAACL, AAAI等发表多篇论文。

陈佳奥

佐治亚理工学院在读博士

导师为Diyi Yang；主要研究方向为自然语言处理和机器学习，在相关领域的国际顶级会议如ACL, EMNLP, NAACL, AAAI等发表多篇论文。

课程提纲

少样本数据在模型训练中的难点
半监督文本分类算法解析
针对半监督命名实体识别的数据增强模型

课程简介

随着深度学习体系的不断完善，深度学习方法在各个领域都表现出了非常好的效果。然而深度学习模型往往表现的很好的前提是：基于大量有标签数据的监督学习。当只有少量标记数据时，往往无法成功训练一个好的模型。这样的需求也使深度学习模型难以运用到实际的应用中。

为了降低神经网络模型对于标签数据的需求，我们通常会使用数据增强的方式来扩充标记数据集，或者使用半监督学习的方式来引入无标记数据。来自佐治亚理工学院的陈佳奥博士等人，针对少样本文本分类和命名实体识别问题，分别提出了基于半监督文本分类的TMix数据增强方法，和半监督NER的基于局部可加性的数据增强方法LADA。

TMix和LADA都是通过一种插值的方式进行的虚拟样本创建，进而达到数据增强的目的。11月27日上午10点，智东西公开课邀请到佐治亚理工学院在读博士陈佳奥参与「NLP前沿讲座」第9讲，带来主题为《少样本数据的文本分类和命名实体识别研究》的直播讲解。

在本次讲座中，陈佳奥博士将从sentence-level和token-level来介绍他们最近提出的数据增强/无监督学习模型,并将其用于解决少样本的文本分类和命名实体识别问题中。对数据增强感兴趣的朋友千万不要错过！

陈佳奥是佐治亚理工学院的在读博士，导师为Diyi Yang。他的主要研究方向为自然语言处理和机器学习，在相关领域的国际顶级会议如ACL, EMNLP, NAACL, AAAI等发表了多篇论文。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...