所以他基本上把目标文字转WAV音频