- 课程回放
少样本数据的文本分类和命名实体识别研究
NLP前沿讲座 2020/11/27 10:00:00
课程讲师
课程提纲
- 少样本数据在模型训练中的难点
- 半监督文本分类算法解析
- 针对半监督命名实体识别的数据增强模型
课程简介
随着深度学习体系的不断完善,深度学习方法在各个领域都表现出了非常好的效果。然而深度学习模型往往表现的很好的前提是:基于大量有标签数据的监督学习。当只有少量标记数据时,往往无法成功训练一个好的模型。这样的需求也使深度学习模型难以运用到实际的应用中。
为了降低神经网络模型对于标签数据的需求,我们通常会使用数据增强的方式来扩充标记数据集,或者使用半监督学习的方式来引入无标记数据。来自佐治亚理工学院的陈佳奥博士等人,针对少样本文本分类和命名实体识别问题,分别提出了基于半监督文本分类的TMix数据增强方法,和半监督NER的基于局部可加性的数据增强方法LADA。
TMix和LADA都是通过一种插值的方式进行的虚拟样本创建,进而达到数据增强的目的。11月27日上午10点,智东西公开课邀请到佐治亚理工学院在读博士陈佳奥参与「NLP前沿讲座」第9讲,带来主题为《少样本数据的文本分类和命名实体识别研究》的直播讲解。
在本次讲座中,陈佳奥博士将从sentence-level和token-level来介绍他们最近提出的数据增强/无监督学习模型,并将其用于解决少样本的文本分类和命名实体识别问题中。对数据增强感兴趣的朋友千万不要错过!
陈佳奥是佐治亚理工学院的在读博士,导师为Diyi Yang。他的主要研究方向为自然语言处理和机器学习,在相关领域的国际顶级会议如ACL, EMNLP, NAACL, AAAI等发表了多篇论文。
精彩问答
提问
提问