是依照真人的比例进行构造的文字转WAV音频