如果公司有大量的原始音频数据,如何筛选数据,以及起步去建立自己的模型?有哪些要素是必须要有的?
登录查看完整答案

字节跳动智能语音方向工程负责人司徒文畅:
我们一般把这个问题叫冷启动问题,其实对于冷启动还是有不少的方案,这里主要描述一个比较朴素的流程。因为是原始数据,要先进行标注,那首先要关心的是要筛选什么样的数据送标,这也取决于你这个描述的大量是什么样的量级,以及你想用什么样的方案来去做标注。是全人工还是第三方服务,结果为主,人工为辅,另外还要考虑您接受的成本和标注周期是多少,若想简单些,可能就是全部送去标注。如果不能接受,就需要做筛选。对于筛选,简单来讲会计...
问题来源:大规模音频理解与合成解决方案及应用
其他回答
网友答案仅供其表达个人看法,并不表明智猩猩立场。