如何解释知识蒸馏出现学生模型精度大于教师模型的情况?
答主
薛子慧
德克萨斯大学奥斯汀分校在读博士
就我们MK这个paper就说了这样一个情况就是如果我的student network是一个多模态的网络,那么它的representation power由于多模态数据带来了更大的representation power。得到了更多的信息,所以它是有可能去超越...
问题来源:知识蒸馏在多模态和跨模态中的应用
其他回答
发布
网友答案仅供其表达个人看法,并不表明智猩猩立场。