就是他断定的文字转WAV音频