他只按照第一次的点击计算文字转WAV音频