这个数量是在我们的预期之内的文字转WAV音频