所以又需要用很多时间去从中斡旋文字转WAV音频