却是目前唯一合理的解释――文字转WAV音频