不过估计前者多一些文字转WAV音频