移动端

您现在的位置:兴旺宝>自动化网>资讯列表>科学岛团队提出一种跨模态机器视觉人工智能模型实现跨模态图像检索技术

企业推荐

更多

科学岛团队提出一种跨模态机器视觉人工智能模型实现跨模态图像检索技术

2024年09月11日 08:30:47 人气: 113 来源: 合肥物质科学研究院 作者:高皖
  近日,中国科学院合肥物质院智能所先进制造中心王红强研究员团队提出一种宽域跨模态机器视觉AI模型,突破了传统单域模型跨模态信息处理瓶颈,实现了跨模态图像检索技术新突破。该研究成果被计算机视觉顶会(欧洲计算机视觉大会,ECCV2024)正式接收。
 
  跨模态机器视觉研究是当前人工智能研究的前沿领域与主要挑战之一,难点在于如何识别模态间的一致性和互补性。传统方法通常在图水平和特征水平上进行,往往受限于信息粒度过大和图像资源稀缺等问题。科研团队发现,相比图和特征,细节关联在多数情况下更好地保持了跨模态间的不变性。
 
  为此,科研团队提出了一种宽域信息挖掘神经网络(WRIM-Net),通过构建全域交互学习机制实现了在空间域、通道域以及尺度域等多域中的细节关联挖掘,突破了传统单域模型的局限性。此外,通过设计跨模态关键实例对比学习模块有效引导了网络提取模态关联信息。在验证实验中,不仅在标准SYSU-MM01和RegDB数据集上,还在最新的大规模跨模态LLCM数据集上证实了所提出模型的有效性,多项关键性能指标首次突破90%,比如在SYSU-MM01上R1指标达92.1%,在RegDB上mAP指标达90.5%,接近实际应用水平。该模型可用于视觉追溯与检索、多模态大模型、医学影像分析、安防监控等多个人工智能应用领域。
 
  博士生吴勇敢为文章的第一作者,王红强为通信作者。该研究工作得到了国家自然科学基金项目、中国科学院设备开发、安徽省重点研究与开发计划等科研项目的支持。
 
  据悉,欧洲计算机视觉大会(ECCV)是计算机视觉领域的顶尖国际学术盛会之一,与ICCV和CVPR并列“三大顶会”。自1986年起,ECCV每两年举行一次,聚焦计算机视觉的全方位研究,包括图像与视频的处理、分析和理解,及其在机器学习、模式识别、机器人、医学影像、AR/VR等领域的应用。
 
跨模态信息关联性与宽域信息挖掘模型原理
全年征稿/资讯合作 qq:1097660699@qq.com
版权与免责声明
1、凡本网注明"来源:兴旺宝"的所有作品,版权均属于兴旺宝,转载请必须注明兴旺宝,https://www.xwboo.com。违反者本网将追究相关法律责任。
2、企业发布的公司新闻、技术文章、资料下载等内容,如涉及侵权、违规遭投诉的,一律由发布企业自行承担责任,本网有权删除内容并追溯责任。
3、本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
4、如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。