- 课程回放
- 基于图的马尔科夫决策(MDP)过程建模
- MDP中图结构的原值函数和后继表示
- 图网络与强化学习的结合与应用
在现实世界中,我们面对着大量的非欧式数据。所谓的非欧式数据是指不规则、难以处理的图网络数据。从蛋白质相互作用网络到社交网络,从基本的逻辑线路到巨大的Internet,图网络数据无处不在。针对该类数据,我们可以将问题抽象成图模型去解决,也就是节点和连边的集合。然而传统的机器学习方法很难处理图网络信息,这种缺陷大大限制了机器学习的应用。于是,人们提出了图网络(Graph Network)。图网络是一种基于图结构的广义人工神经网络,它在直接对真实问题建模方面有着巨大的优势。
另一方面,自从DeepMind运用强化学习在Atari游戏获得成功、开发AlphaGo击败人类冠军选手,作为机器学习重要分支之一的强化学习迅速吸引了大众的目光。随着神经网络和计算机算力的发展,结合深度学习的强化学习方式也获得爆炸式增长。图网络对神经网络的扩充及深度学习在强化学习中的成功应用,为将图网络应用到强化学习中奠定了坚实的基础。
在图网络中,现实世界的问题都被抽象成节点和有向边的集合嵌入图中。因图网络中相邻节点间的关联,因此可以对相邻节点进行预测。强化学习也可用于链接预测,强化学习强调智能体与环境的交互获得估计的最优价值函数和最优策略。在给定策略且不需掌握马尔科夫决策过程的细节情况下,将任务聚焦于策略评估,从而形成预测。在这种方法中,网络学习从图中提取一系列事实,并结合这些事实生成链接预测。除了将图网络与强化学习相结合应用到链接预测任务外,还可应用于图分类、图推断、结构生成等。
12月18日上午10点,智东西公开课邀请到加拿大麦吉尔大学在读博士栾思焘参与「机器学习前沿讲座」第12讲,带来主题为《强化学习与图网络的研究与应用》的直播讲解。栾思焘博士将从基于图的马尔可夫决策过程建模出发,深入讲解马尔可夫决策过程中图结构的原值函数和后继表示,最后详解图网络与强化学习的结合与应用。对强化学习与图网络感兴趣的朋友一定不要错过!
栾思焘是加拿大麦吉尔大学在读博士,数值计算实验室成员,推理与学习实验室成员,蒙特利尔学习算法研究院(Mila)成员,在NeurIPS、AAMAS上发表了与图网络和强化学习相关的论文。