分别位于五片不同的区域文字转WAV音频