如果单纯按照副本次数的话文字转WAV音频