他们都是可以直接数量化的文字转WAV音频