他们两个想法是一样文字转WAV音频