而是现在的数十倍来形容文字转WAV音频