它们有的只是经过文字转WAV音频