或许他们两个都属于比较文字转WAV音频