确定一个基本骨架和思路后文字转WAV音频