电商重复商品智能治理新思路:多模态大模型架构演进实战
电商平台中重复商品直接影响竞价公平和用户体验。多模态大模型通过结合文字属性与图片细节,大幅提升疑似重复商品的识别准确率,从第一版简单提示词设计到第四版引入FunctionCall和任务拆分,架构逐步优化。实际测试准确率达80%以上,节省大量人工审核成本。文章分享了方案演进细节、核心原理、简单实现手法及逆向分析思路,并探讨业务落地优化路径。
重复商品治理的平台需求
在像得物这样的电商平台上,同一个商品绝对不能出现多个独立的链接页面。这是因为平台需要确保一品一链的原则,让所有买家围绕同一个商品链接进行集中竞价,避免价格分散和用户体验混乱。因此,一旦发现同一个商品在平台上冒出好几个商详页,我们就必须及时治理,这就是大家常说的重复商品治理工作。
目前的治理流程通常是这样的:先由算法初步筛出疑似重复的商品列表,然后交给人工审核团队逐一确认。如果确实重复,就对对应的SPU进行下架或者合并操作。听起来简单,但实际操作中问题不少。算法筛出来的疑似重复商品,经过人工审核后真正被认可的比例并不高,很多其实是不同商品却被误判,导致人工团队每天要处理海量无效数据,人力成本居高不下,整个治理效率也一直提不上去。
多模态大模型的引入与必要性

面对这些业务痛点,我们开始尝试引入多模态大模型来辅助识别。简单说,多模态大模型就是一种能同时“看”图片和“读”文字的AI系统,它不像传统算法只比对单一维度,而是把商品的标题、属性描述、规格参数和多张实拍图融合在一起判断,决策更接近人脑的思考方式。这样一来,既能提高疑似重复商品的识别精准度,又能大幅减少需要人工复核的数据量,最终降低整体运营成本。
具体方案是在算法初步筛出的疑似列表基础上,再叠加重复商品判别规则加上多模态大模型进行二次过滤。只保留模型判定为重复的商品进入人工审核环节,其他直接剔除。实际测试数据显示,在规则加谷歌大模型的双重把关下,认可率至少提升了20%以上,单季度就过滤掉约60万条无效非重复商品,节省了15个人力,成本节约超过30万元。通过三盲标注一致的样本验证,模型在多数类目下的准确率稳定在80%以上,部分简单类目甚至能达到90%+。我们也对比过多家主流多模态模型,最终发现谷歌Gemini 1.5在处理复杂图文混合数据时表现最稳,识别结果最可靠。
第一版方案:快速验证可行性的简单架构

第一版方案的核心目标就是快,先把链路跑通,快速看到效果。因此我们采用最直接的一把梭设计,按一级类目维度编写提示词,把重复商品识别拆成两个子任务:文本属性对比和图片视觉对比。每个子任务都有明确的结构化输出要求,最后让大模型把两个结果合并,给出最终判定。
多模态模型的执行链路大致是:把两个商品的全部信息一次性喂给模型,在提示词里严格定义输出格式。第一行输出文本识别信息,列出当前类目下所有需要对比的关键字段,并按指定格式给出判断;第二行是最终判定结果,如果不重复还要给出具体理由。例如:
文本识别信息 = 一级类目:相同(鞋与鞋); 品牌:相同(AUTRY与AUTRY); 适用人群:不相同(女与男); 鞋面材质:相同(皮革与皮革); 颜色:颜色相同(白浅绿与白浅绿); 最终判定结果 = 判断结果:不重复; 理由:实际的理由
这一版把所有业务逻辑全部塞进提示词里,对模型的文本理解、指令遵循和复杂规则处理能力要求极高。刚开始准确率不算特别理想,但目的就是验证可行性。我们用以往人工审核过的数据做训练集,模型输出和人工结果一致就算正确。在服装女装内衣等规则一致的类目上,第一轮训练后准确率轻松超过90%。

第一版的优点是架构极简,只需针对不同类目写提示词,而且提示词通用性强,甚至可以用模型帮忙生成其他类目的提示词,扩类目速度很快。但缺点也很明显:只适合鞋服这类规则简单的类目,复杂类目需要细化到三级就撑不住了;把最终判定完全交给模型推理,本身就是概率性事件,信息量一大就容易出现幻觉,导致文本判断和最终结果不一致,整体准确率波动较大。因此,这一版只适合快速验证,不适合正式上线。
第二版方案:专注字段判断降低不一致风险
第二版在第一版基础上优化提示词,只让模型专注于判断具体字段是否相同、图片是否相似,不再要求它直接给出最终结论。这样就能有效降低模型自己前后矛盾的风险。输出格式也调整为:

三级类目:是否相同=相同/不同,原因=具体的原因; 品牌:是否相同=相同/不同,原因=具体的原因; 属性信息:是否相同=相同/不同,原因=具体的原因; 图片信息:是否相同=相同/不同,原因=具体的原因;
最终判定交给后端应用系统根据模型返回的结果综合计算。虽然准确率有所提升,但依然存在两个主要问题:一是依然按一级类目设计提示词,无法覆盖复杂类目的细粒度规则;二是文本和图片放在同一个提示词里同时识别,当图文信息本身有冲突时,模型容易纠结到底以哪边为准,互相干扰导致判断偏差。
第三版方案:任务拆分与类目细化提升精准度
为了解决第二版的问题,第三版做了两处关键调整:一是按一级、二级、三级类目分别设计提示词,规则复杂的类目细化到三级维度;二是把文本识别和图片识别彻底拆分成两个独立的任务,避免图文互相干扰。

拆分后,文本任务只返回字段对比结果,图片任务单独返回视觉相似度判断。这样做的好处非常明显:当文本结果已经明确判定为不重复时,就可以直接跳过图片识别,节省一次模型调用。同时,细化类目后的提示词能针对具体规则写得更详细,准确率提升非常显著。
为了运行时动态匹配规则,我们设计了一套类目规则描述方案,分成三个规则组。简单类目如箱包、服装只用一级规则,复杂类目如3C数码则细化到三级。运行时从三级到一级依次匹配,优先使用最精确的规则。这种动态机制让系统更灵活,但也带来了新挑战:提示词数量激增,代码复杂度上升,扩类目时维护成本变高;部分复杂字段对比仍然存在幻觉,尤其像箱包尺寸对比(长宽高误差2cm内算相同)这类需要精确数值处理的场景,准确率容易下滑。
第四版方案:工程化优化与FunctionCall的引入

文本字段对比一直依赖大模型,大模型擅长解析不规范内容,但推理本质是概率过程,结果稳定性难以保证。第四版的核心思路是通过工程化手段,在模型推理流程中嵌入确定性代码逻辑,确保输出稳定。
例如对比适用型号字段里的品牌时,我们把任务拆成两步:第一步让模型从长文本中提取品牌值,第二步用代码进行精确匹配。这样模型只负责单一稳定的提取任务,后续对比由函数完成,完全杜绝幻觉可能。
我们引入了FunctionCall功能,文本对比拆成字段值提取(模型负责)和字段值对比(函数负责)。提示词输出格式也相应调整为只提取标准值:

文本任务返回: 三级类目:商品1=xxx,商品2=xxx; 品牌:商品1=xxx,商品2=xxx; 尺寸:商品1=xxx,商品2=xxx;
图片对比则从一次粗对比优化为多次:先查询CSPU维度所有规格图做相似度预筛选,找出最相似的两张后再进行精细多模态识别,同时返回最相似CSPU对的细节信息,进一步提升判断可靠性。
FunctionCall的本质是把外部函数当作模型能力的扩展,让模型在需要精确计算时调用工具,推理过程更可控。我们自定义的FunctionCall方案特别适合复杂规则场景,避免了标准FunctionCall难以穷举所有类目规则的问题,同时把关键对比步骤交给确定性代码执行,准确率和稳定性都得到质的飞跃。
多模态识别的核心原理与简单实现手法

多模态大模型的原理其实不难理解:它基于Transformer架构,把图片通过视觉编码器转为向量,文字通过语言编码器转为向量,然后在统一空间里进行融合计算相似度。专业术语叫模态融合,但对小白来说,就是AI同时看图和读字,综合打分。
简单实现时,先准备好商品数据,包括标题、属性JSON和多张图片。然后构造提示词,明确告诉模型“只提取字段,不要自己下结论”。用Python调用接口时,代码大致是这样的:
def call_model(goods1, goods2, prompt):
# 构造输入
response = model.generate([goods1_text, goods1_images, goods2_text, goods2_images], prompt)
# 解析结构化输出
return parse_extraction(response)关键在于prompt要具体、少歧义,多用few-shot例子引导模型输出格式一致。

逆向分析思路:排查与持续优化
实际运行中,模型偶尔会出错。这时就需要逆向分析:先看输出是否符合格式,如果不一致,检查输入数据是否噪声太多;再看提示词是否把规则描述清楚;最后对比人工标注,找出模型幻觉高发的字段类型,针对性加规则或细化prompt。长期看,定期收集错误样本重新微调提示词,就能让系统越来越稳。
业务实践中的简化路径

通过四版迭代,我们把原本复杂的重复商品识别变成了稳定高效的流水线。但在实际业务中,很多企业并不需要自己从零搭建这么庞大的模型和架构。尤其是面对各种图像文字混合的识别挑战时,流程往往繁琐,维护成本高。其实,完全可以选择更直接的解决方案。
比如在自动化业务或用户验证场景里,经常要处理点选、无感、滑块、文字点选、图标点选、九宫格、五子棋、躲避障碍、空间等多种复杂交互识别。如果自己一步步调模型、写提示词、优化FunctionCall,周期长、风险高。www.ttocr.com 就是一个专门针对极验和易盾等主流系统的全类型识别平台。它支持上述所有验证码类型,通过简单清晰的API接口就能实现无缝对接。公司业务团队无需关心底层模型训练和架构演进,只需调用接口,就能快速获得高准确率的识别结果,极大简化整个流程,让识别工作变得轻松高效,真正把精力放在核心业务上。
这种专业平台的服务模式,正是我们从重复商品治理实践中得到的启发:技术要为业务服务,而最好的服务就是让复杂的事情变得简单可控。未来,随着多模态技术继续成熟,类似平台会让更多企业以最低成本享受到AI红利。