实际上是在探路文字转WAV音频