反而是自动的忽略文字转WAV音频