这五成是他比较保守来估计的文字转WAV音频