毕竟他们也需要开销文字转WAV音频