1、采用了长短时记忆神经网络,注意力机制以及CTC实现的算法基于概率图的最大熵隐马尔可夫模型,输入为汉语拼音序列,输出为对应的汉字文本。
2、输入音频并转换为语音特征,输入LSTM, 用FFN和softmax对输出做处理后得到每一个character的概率分布,输入CTC损失函数后得到损失值。
3、训练中文语音数据集达到总计150多万条,总时长2000多个小时,包含清华大学THCHS30中文语音数据集、Free ST Chinese Mandarin Corpus、AIShell-1 开源版数据集。
4、由来自国内不同地区的录音人参与录制,准确率达到98%以上。