所以他尽量说的详细文字转WAV音频