他们只能按照既定的流程文字转WAV音频