原来之前的推理全是错的文字转WAV音频