所以需要两侧轮换着咀嚼文字转WAV音频