他们只需要服从和执行文字转WAV音频