而后随着塔的层数文字转WAV音频