换言之每个人出现了十二次文字转WAV音频