因为我们无法知道这次比赛的观众会有多少文字转WAV音频