就是因为它有不确定性文字转WAV音频