这个模型是安格按照目标建筑的图纸来的文字转WAV音频