他们会考虑到换人文字转WAV音频