他们有的还会考虑文字转WAV音频