俩人的工作模式大概是文字转WAV音频