还是主动开口询问到文字转WAV音频