毕竟他们之间的配合是根据整体进行的文字转WAV音频