在他们通过模拟城镇的时候文字转WAV音频