绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
少样本数据的文本分类和命名实体识别研究
NLP前沿讲座 2020/11/27 10:00:00
课程讲师
陈佳奥 佐治亚理工学院在读博士

导师为Diyi Yang;主要研究方向为自然语言处理和机器学习,在相关领域的国际顶级会议如ACL, EMNLP, NAACL, AAAI等发表多篇论文。

陈佳奥
佐治亚理工学院在读博士

导师为Diyi Yang;主要研究方向为自然语言处理和机器学习,在相关领域的国际顶级会议如ACL, EMNLP, NAACL, AAAI等发表多篇论文。

课程提纲
  • 少样本数据在模型训练中的难点
  • 半监督文本分类算法解析
  • 针对半监督命名实体识别的数据增强模型
课程简介

随着深度学习体系的不断完善,深度学习方法在各个领域都表现出了非常好的效果。然而深度学习模型往往表现的很好的前提是:基于大量有标签数据的监督学习。当只有少量标记数据时,往往无法成功训练一个好的模型。这样的需求也使深度学习模型难以运用到实际的应用中。

为了降低神经网络模型对于标签数据的需求,我们通常会使用数据增强的方式来扩充标记数据集,或者使用半监督学习的方式来引入无标记数据。来自佐治亚理工学院的陈佳奥博士等人,针对少样本文本分类和命名实体识别问题,分别提出了基于半监督文本分类的TMix数据增强方法,和半监督NER的基于局部可加性的数据增强方法LADA。

TMix和LADA都是通过一种插值的方式进行的虚拟样本创建,进而达到数据增强的目的。11月27日上午10点,智东西公开课邀请到佐治亚理工学院在读博士陈佳奥参与「NLP前沿讲座」第9讲,带来主题为《少样本数据的文本分类和命名实体识别研究》的直播讲解。

在本次讲座中,陈佳奥博士将从sentence-level和token-level来介绍他们最近提出的数据增强/无监督学习模型,并将其用于解决少样本的文本分类和命名实体识别问题中。对数据增强感兴趣的朋友千万不要错过!

陈佳奥是佐治亚理工学院的在读博士,导师为Diyi Yang。他的主要研究方向为自然语言处理和机器学习,在相关领域的国际顶级会议如ACL, EMNLP, NAACL, AAAI等发表了多篇论文。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...