“多模态”技术助推图像内容安全建设

(资料图)

近日，2023年中国模式识别与计算机视觉大会（PRCV）在厦门召开。大会由中国计算机学会、中国自动化学会、中国图象图形学学会和中国人工智能学会联合主办。大会通过聚焦中国模式识别与计算机视觉领域的最新理论和技术成果解读、分享，进一步加强产学研领域的学术交流和技术碰撞，促进模式识别与计算机视觉领域的协同合作与融合创新。

智能文档处理技术是学术界重点关注的领域，而随着信息渠道的多样化发展，异构化、跨模态的数据层出不穷。文档图像是文字与图片领域的交集点，天然具备多模态属性。在“视言碰撞：语言模型与视觉生态协同论坛”上，合合信息图像算法研发总监郭丰俊就文档图像前沿技术热点话题进行了分享。他表示，多模态技术可充分利用文档图像的视觉和语言属性，并借助语言大模型已取得的优异性能和技术积累，正逐渐成为文档图像处理领域的热门研究方向。

“从目前评测的情况来看，已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。”郭丰俊提到，合合信息-华南理工大学文档图像分析识别与理解联合实验室对该方向展开了研究，并在数据高效利用及垂直领域识别项目中取得了阶段性成果。

大模型技术的突破让生成式AI拥有了更广泛的落地空间，也让图片伪造的门槛变得更低，给了不法分子可乘之机。据郭丰俊介绍，合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期，图像篡改检测技术不仅能够应用于自然场景，还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假，合合信息基于空域与频域关系建模，利用多维度特征来分辨真实图片和生成式图片的细微差异，判断图片是否由AI生成。

“目前，图像篡改检测技术的应用面临篡改手段不断变化、场景复杂等系列挑战，不断提升检测系统的鲁棒性和泛化能力，是学术界与企业界需要深入合作的重要方向。”郭丰俊表示，合合信息已联合中国信通院发起了《文本图像篡改检测系统技术规范》标准制定，希望持续推动AI技术在图像安全领域的广泛应用，带给用户更加安全、高效的工作和生活体验。