前者由我们来确定文字转WAV音频