就已经在心里模拟了无数次应该怎么跟他说的场景文字转WAV音频