以及根据这些初始数据不断推演出来的文字转WAV音频