但是比例仍然是基于严格的时间控制和布局文字转WAV音频