他们只能用文字转WAV音频