在这种情况下他们多半会选择放弃文字转WAV音频