一般的双修是文字转WAV音频