然后只开口问询文字转WAV音频