似乎留出时间给双方思考文字转WAV音频