先前她已经按照最差的情况去估计了文字转WAV音频