主要是关注主位的眼色文字转WAV音频