也可能是经过权衡对比文字转WAV音频