能否将这两个法术的模型进行优化文字转WAV音频