难道在传送的过程需要掌控文字转WAV音频