它们有很朴素的认知文字转WAV音频