捕捉到它们的模样后文字转WAV音频