然后再加上简单的推理文字转WAV音频