从录音最开始时的对话可以推测出文字转WAV音频