他推测出了一种可能性文字转WAV音频