需要把目光放置的稍微晚一点文字转WAV音频