所以我们看到的场景全都是一模一样文字转WAV音频