最主要的是他知道该在什么时候举什么例子文字转WAV音频