即使是老练的pr也不可能做出准确估计文字转WAV音频