又岂能简单的用修为来衡量文字转WAV音频