移动端

您现在的位置:兴旺宝>自动化网>资讯列表>多模态推理的前沿成果!首个开源多模态推理模型问世

企业推荐

更多

多模态推理的前沿成果!首个开源多模态推理模型问世

2024年12月28日 14:11:07 人气: 18830 来源: 智能制造网整理
  人类的推理能力植根于语言思维和视觉记忆中,利用视觉理解增强大模型推理能力是AI技术的前沿探索之一。2024年12月25日,阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。
 
  一个月前(11月28日),通义发布AI推理模型QwQ - 32B - Preview并斩获SuperCLUE的AI推理模型榜单「全球开源冠军」,评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。
 
  QwQ(Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型,也是阿里云首个开源的AI推理模型。阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化。
 
  如今在Qwen2 - VL - 72B开源模型基础上,研发出QVQ - 72B - Preview。
 
  QVQ-72B-Preview不仅在逻辑推理上更上一层楼,还巧妙地融合了视觉理解能力,使得AI在解析图像信息、结合上下文进行空间推理方面取得了显著进步。这一突破意味着AI在处理诸如视觉问答、图像识别与解释等复杂任务时,能够更加精准地把握细节,实现更加智能化、人性化的交互体验。
 
  例如,在解析一张包含物理实验的图像时,QVQ不仅能准确识别出实验器材,还能基于视觉线索推断出实验步骤、预测实验结果,甚至对实验设计中可能存在的逻辑漏洞提出质疑。这种跨模态的推理能力,为教育、科研、工业设计等多个领域带来了革命性的变化,加速了知识的自动化处理和创新应用的步伐。
 
  目前,QVQ-72B-Preview已在魔搭社区和HuggingFace等平台上开源,开发者可上手体验。截至目前,通义千问Qwen的衍生模型数突破7.8万个。
 
  阿里云通义千问团队表示,QVQ-72B-Preview的发布只是冰山一角,他们正不断探索AI推理能力的极限,旨在构建一个更加全面、智能、适应未来需求的AI生态系统。随着技术的不断迭代与成熟,我们有理由相信,AI将在更多领域展现出超越人类想象的智慧之光,开启一个由技术与人类共同编织的智慧新时代。
全年征稿/资讯合作 qq:1097660699@qq.com
版权与免责声明
1、凡本网注明"来源:兴旺宝"的所有作品,版权均属于兴旺宝,转载请必须注明兴旺宝,https://www.xwboo.com。违反者本网将追究相关法律责任。
2、企业发布的公司新闻、技术文章、资料下载等内容,如涉及侵权、违规遭投诉的,一律由发布企业自行承担责任,本网有权删除内容并追溯责任。
3、本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
4、如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。