因为他询问的方式是文字转WAV音频