也不能用正常人的标准来衡量文字转WAV音频