他们的目标赫然是文字转WAV音频