取的目标就是其咽喉部位文字转WAV音频