文献中通常称为文字转WAV音频