比较他们的底蕴一直都在文字转WAV音频