所以他们自然熟识文字转WAV音频