登录查看完整答案
字节跳动智能语音方向工程负责人司徒文畅
首先分解下,先从准确性上去描述,然后再说响应速度的问题。准确性上其实识别跟合成稍微不同,识别可以分为声学模型的方案,还有语言模型的方案,声学模型主要是通过加数据做数据增强,肯定是加越多场景的数据会越好,可以让整个声学预测的准确率得到很好的提升,然后让模型深度加深,让整个模型具有更好的效果;对于语言模型,除了加数据以外,还能做一些其他方案,像一些比较关键的词的lm boosting,或者如果你专注于某些领域类的数据,也可以做一些领域domain比较小的lm bias方案,都是可以提升准确率的方法。对于合成来讲,准确率主要分成前端文本分析的准确性,以及后端建模的准确性,我觉得在合成里面更重要的是打造一种反馈的闭环,比如在前端包括一些多音字,多音词,还有停顿、边界,这本身也是业界里的难区...