在观众可以做出反应之前文字转WAV音频