实则每个字都有一个在暗中的比较文字转WAV音频