自己必须要从他口中问出文字转WAV音频