问答
文章
下载
问答
登录
登录
如何解释知识蒸馏出现学生模型精度大于教师模型的情况?
答主
薛子慧
德克萨斯大学奥斯汀分校在读博士
登录查看完整答案
就我们MK这个paper就说了这样一个情况就是如果我的student network是一个多模态的网络,那么它的representation power由于多模态数据带来了更大的representation power。得到了更多的信息,所以它是有可能去超越...
问题来源:知识蒸馏在多模态和跨模态中的应用
其他回答
发布
网友答案仅供其表达个人看法,并不表明智猩猩立场。
相关回答
蒸馏的本质是什么,能够工作的基本原理是什么?什么情况下不能工作?
如何解释知识蒸馏出现学生模型精度大于教师模型的情况?
如果学生模型是多模态融合的轻量化网络,教师模型是设计一个类似的多模态融合的网络还是使用有预训练权重的经典的深度神经网络比较好?
假设,想对清晰的图像增加失焦模糊效果,可以直接使用拟合出来的失焦模糊kernal吗?还是需要添加景深信息?
你好,请问物理真实那里的blur kernel需要优化光线原点位置,这里还同时优kernel的position吗?如果是的话是不是不太符合真实情况,比如相机运动模糊其实只有光心在动,而view direction在相机系下并没有改变
热门问答
SR-IOV和MIG的关系是什么?A100是否支持SR-IOV?
请问INT4的算力为什么是INT8的2倍,而不是4倍?
请教一下,在A100上MPS技术会怎样演进,和MIG技术有哪些结合?
MIG将来是不是会取代vGPU?有大致路线图吗?适配vGPU和适配MIG有没有升级问题?还是无缝升级?
如果不使用MIG,那么就可以使用8个GPU了?还有结构化稀疏支持两个矩阵都是稀疏的么?
NVLink与NVSwitch是什么关系?
MIG的各实例是程序员控制还是系统控制?
NVLink 3.0通过12个X4 Link来支持双向600GB带宽,平均每个X4 link是50GB,这样的话,X16 link的双向带宽就有200GB,这个带宽已经超过PCIe 5.0的标准了,是这样吗?
转写的标点符号没看到?
纹理内存究竟是单独的内存区域?还是gmem的一种特殊访问方式?(即,有限的究竟是纹理缓存还是纹理内存)