我们会先拍内景和可拍的外景文字转WAV音频