因为他们觉得如果没有把握文字转WAV音频