所以并不能完全掌控文字转WAV音频