他试图去解释一下这种现象文字转WAV音频