登录
首页 > 新车快报 > 长文本检索大突破,联通团队研发的新模型,准确率提升近两成

长文本检索大突破,联通团队研发的新模型,准确率提升近两成

发布时间:2025-12-03 10:21:31
你有没有遇到过这种情况,想在网上找一件"白色福特F250皮卡,带有色车窗和超大轮胎",结果搜出来一堆普通白色轿车?这可不是你描述得不够清楚,而是AI在处理长文本描述时犯了难。
 
现在的图像检索模型,比如大家熟悉的CLIP,处理简单描述还行,一旦遇到这种带多个特征的复杂描述,反而容易"抓不住重点"。
 
有时候描述得越详细,匹配准确率反而越低,就像考试时答太多无关内容反而扣分一样。
 
这时候,HiMo-CLIP就登场了。
 
 
 
这款由中国联通数据科学与人工智能研究院团队研发的新模型,在AAAI会议上做了口头报告,一下子就解决了这个"说越多错越多"的老大难问题。
 
让AI学会"抓重点"的黑科技
 
HiMo-CLIP最聪明的地方,就是它能像人一样自动识别描述中的关键信息。
 
团队给这个能力起了个专业名字叫HiDe模块,说白了就是动态语义指纹提取技术。
 
具体怎么做呢?它会通过统计学方法,在一堆相似的描述中找出最有区分度的特征。
 
比如提到福特皮卡,它会自动发现"超大轮胎"比"有色车窗"更能帮它准确找到目标。
 
这种方法比以前固定模板分词或者人工标注层级要高效得多,准确率能达到89.3%。
 
 
 
更厉害的是,这个模块在保证性能的同时,对硬件要求并不高。
 
在A100显卡上推理速度只增加了7%,普通服务器也能跑得动。
 
本来想这技术肯定很复杂,没想到工程实现上还挺接地气。
 
双重保障让匹配更靠谱
 
光会抓重点还不够,HiMo-CLIP还解决了另一个关键问题,怎么保证描述越详细,匹配得分越高。
 
团队设计了一个叫MoLo损失的机制,简单说就是双重对齐保障。
 
它一方面让模型匹配整个文本的语义,另一方面特别强化核心特征的匹配。
 
Copyright 2018-2025 报纸迷 版权所有  京ICP备2018136890号