绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
256KB 内存上深度学习训练方法解析
智猩猩AI新青年讲座 2022/12/28 10:00:00
课程讲师

师从韩松教授; 研究方向主要集中在高效深度学习系统和算法之间;设计了第一个软硬协同的AutoML算法并可以扩展到大规模的数据集的算法ProxylessNAS(ICLR’19),迄今已有 1400 引用和 1300 Github stars;开发了高效推理系统(IOS@MLSys’21)和深度学习训练系统(TinyTL@NeurIPS’20,DGA@NeurIPS'21,TinyTraining@NeurIPS'22);项目已经被整合到PyTorch和AutoGluon等框架中。

朱力耕
麻省理工学院 在读博士

师从韩松教授; 研究方向主要集中在高效深度学习系统和算法之间;设计了第一个软硬协同的AutoML算法并可以扩展到大规模的数据集的算法ProxylessNAS(ICLR’19),迄今已有 1400 引用和 1300 Github stars;开发了高效推理系统(IOS@MLSys’21)和深度学习训练系统(TinyTL@NeurIPS’20,DGA@NeurIPS'21,TinyTraining@NeurIPS'22);项目已经被整合到PyTorch和AutoGluon等框架中。

课程提纲
  • 资源受限的设备内训练
  • 算法-系统联合设计的设备内训练方法
  • 量化感知压缩与梯度计算
  • 仅需256KB和1MB内存的训练及准确度
课程简介

设备内训练(On-device Training)能持续的从传感器中学习,让用户享受定制模型的同时而无需将数据上传到云端,从而保护隐私。然而, AIoT 设备(MCU)的SRAM大小通常有限(256KB)。这种级别的内存做推理都十分勉强,更不用说训练了。因此要在硬件资源受限的情况下实现训练是一件困难的事情。

麻省理工大学韩松教授团队的朱力耕博士等人在NeurIPS 2022上提出了一种算法-系统联合设计,仅用 256KB 和 1MB 的内存即可实现设备内训练,且开销不到PyTorch和TensorFlow的1/1000。

朱力耕博士等人提出了量化感知缩放(QAS)来校准梯度刻度并稳定8位量化训练,并设计了稀疏更新(Sparse Update),跳过不太重要的层和子张量来减少内存占用。通过 Tiny Training Engine (TTE)把理论上的数值转化为实际的节省:TTE 将运行时的自动微分转移到编译时并裁剪了后向计算图。

该工作展现出了比MLPerf Tiny更好的准确性(87% v.s. 80%)。12月28日早10点,AI新青年讲座第186讲邀请到MIT HAN LAB 在读博士朱力耕参与,主讲《256KB 内存上深度学习训练方法解析》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...