条件就是必须我向他开口文字转WAV音频