2026-04-03 13:54:43 技术编辑别名：article-20260410080008

电商重复商品智能治理新思路：多模态大模型架构演进实战

电商平台中重复商品直接影响竞价公平和用户体验。多模态大模型通过结合文字属性与图片细节，大幅提升疑似重复商品的识别准确率，从第一版简单提示词设计到第四版引入FunctionCall和任务拆分，架构逐步优化。实际测试准确率达80%以上，节省大量人工审核成本。文章分享了方案演进细节、核心原理、简单实现手法及逆向分析思路，并探讨业务落地优化路径。

重复商品治理的平台需求

在像得物这样的电商平台上，同一个商品绝对不能出现多个独立的链接页面。这是因为平台需要确保一品一链的原则，让所有买家围绕同一个商品链接进行集中竞价，避免价格分散和用户体验混乱。因此，一旦发现同一个商品在平台上冒出好几个商详页，我们就必须及时治理，这就是大家常说的重复商品治理工作。

目前的治理流程通常是这样的：先由算法初步筛出疑似重复的商品列表，然后交给人工审核团队逐一确认。如果确实重复，就对对应的SPU进行下架或者合并操作。听起来简单，但实际操作中问题不少。算法筛出来的疑似重复商品，经过人工审核后真正被认可的比例并不高，很多其实是不同商品却被误判，导致人工团队每天要处理海量无效数据，人力成本居高不下，整个治理效率也一直提不上去。

多模态大模型的引入与必要性

面对这些业务痛点，我们开始尝试引入多模态大模型来辅助识别。简单说，多模态大模型就是一种能同时“看”图片和“读”文字的AI系统，它不像传统算法只比对单一维度，而是把商品的标题、属性描述、规格参数和多张实拍图融合在一起判断，决策更接近人脑的思考方式。这样一来，既能提高疑似重复商品的识别精准度，又能大幅减少需要人工复核的数据量，最终降低整体运营成本。

具体方案是在算法初步筛出的疑似列表基础上，再叠加重复商品判别规则加上多模态大模型进行二次过滤。只保留模型判定为重复的商品进入人工审核环节，其他直接剔除。实际测试数据显示，在规则加谷歌大模型的双重把关下，认可率至少提升了20%以上，单季度就过滤掉约60万条无效非重复商品，节省了15个人力，成本节约超过30万元。通过三盲标注一致的样本验证，模型在多数类目下的准确率稳定在80%以上，部分简单类目甚至能达到90%+。我们也对比过多家主流多模态模型，最终发现谷歌Gemini 1.5在处理复杂图文混合数据时表现最稳，识别结果最可靠。

第一版方案：快速验证可行性的简单架构

第一版方案的核心目标就是快，先把链路跑通，快速看到效果。因此我们采用最直接的一把梭设计，按一级类目维度编写提示词，把重复商品识别拆成两个子任务：文本属性对比和图片视觉对比。每个子任务都有明确的结构化输出要求，最后让大模型把两个结果合并，给出最终判定。

多模态模型的执行链路大致是：把两个商品的全部信息一次性喂给模型，在提示词里严格定义输出格式。第一行输出文本识别信息，列出当前类目下所有需要对比的关键字段，并按指定格式给出判断；第二行是最终判定结果，如果不重复还要给出具体理由。例如：

文本识别信息 = 
一级类目:相同(鞋与鞋);
品牌:相同(AUTRY与AUTRY);
适用人群:不相同(女与男);
鞋面材质:相同(皮革与皮革);
颜色:颜色相同(白浅绿与白浅绿);
最终判定结果 = 
判断结果:不重复;
理由:实际的理由

这一版把所有业务逻辑全部塞进提示词里，对模型的文本理解、指令遵循和复杂规则处理能力要求极高。刚开始准确率不算特别理想，但目的就是验证可行性。我们用以往人工审核过的数据做训练集，模型输出和人工结果一致就算正确。在服装女装内衣等规则一致的类目上，第一轮训练后准确率轻松超过90%。

第一版的优点是架构极简，只需针对不同类目写提示词，而且提示词通用性强，甚至可以用模型帮忙生成其他类目的提示词，扩类目速度很快。但缺点也很明显：只适合鞋服这类规则简单的类目，复杂类目需要细化到三级就撑不住了；把最终判定完全交给模型推理，本身就是概率性事件，信息量一大就容易出现幻觉，导致文本判断和最终结果不一致，整体准确率波动较大。因此，这一版只适合快速验证，不适合正式上线。

第二版方案：专注字段判断降低不一致风险

第二版在第一版基础上优化提示词，只让模型专注于判断具体字段是否相同、图片是否相似，不再要求它直接给出最终结论。这样就能有效降低模型自己前后矛盾的风险。输出格式也调整为：

三级类目:是否相同=相同/不同,原因=具体的原因;
品牌:是否相同=相同/不同,原因=具体的原因;
属性信息:是否相同=相同/不同,原因=具体的原因;
图片信息:是否相同=相同/不同,原因=具体的原因;

最终判定交给后端应用系统根据模型返回的结果综合计算。虽然准确率有所提升，但依然存在两个主要问题：一是依然按一级类目设计提示词，无法覆盖复杂类目的细粒度规则；二是文本和图片放在同一个提示词里同时识别，当图文信息本身有冲突时，模型容易纠结到底以哪边为准，互相干扰导致判断偏差。

第三版方案：任务拆分与类目细化提升精准度

为了解决第二版的问题，第三版做了两处关键调整：一是按一级、二级、三级类目分别设计提示词，规则复杂的类目细化到三级维度；二是把文本识别和图片识别彻底拆分成两个独立的任务，避免图文互相干扰。

拆分后，文本任务只返回字段对比结果，图片任务单独返回视觉相似度判断。这样做的好处非常明显：当文本结果已经明确判定为不重复时，就可以直接跳过图片识别，节省一次模型调用。同时，细化类目后的提示词能针对具体规则写得更详细，准确率提升非常显著。

为了运行时动态匹配规则，我们设计了一套类目规则描述方案，分成三个规则组。简单类目如箱包、服装只用一级规则，复杂类目如3C数码则细化到三级。运行时从三级到一级依次匹配，优先使用最精确的规则。这种动态机制让系统更灵活，但也带来了新挑战：提示词数量激增，代码复杂度上升，扩类目时维护成本变高；部分复杂字段对比仍然存在幻觉，尤其像箱包尺寸对比（长宽高误差2cm内算相同）这类需要精确数值处理的场景，准确率容易下滑。

第四版方案：工程化优化与FunctionCall的引入

文本字段对比一直依赖大模型，大模型擅长解析不规范内容，但推理本质是概率过程，结果稳定性难以保证。第四版的核心思路是通过工程化手段，在模型推理流程中嵌入确定性代码逻辑，确保输出稳定。

例如对比适用型号字段里的品牌时，我们把任务拆成两步：第一步让模型从长文本中提取品牌值，第二步用代码进行精确匹配。这样模型只负责单一稳定的提取任务，后续对比由函数完成，完全杜绝幻觉可能。

我们引入了FunctionCall功能，文本对比拆成字段值提取（模型负责）和字段值对比（函数负责）。提示词输出格式也相应调整为只提取标准值：

文本任务返回：
三级类目:商品1=xxx,商品2=xxx;
品牌:商品1=xxx,商品2=xxx;
尺寸:商品1=xxx,商品2=xxx;

图片对比则从一次粗对比优化为多次：先查询CSPU维度所有规格图做相似度预筛选，找出最相似的两张后再进行精细多模态识别，同时返回最相似CSPU对的细节信息，进一步提升判断可靠性。

FunctionCall的本质是把外部函数当作模型能力的扩展，让模型在需要精确计算时调用工具，推理过程更可控。我们自定义的FunctionCall方案特别适合复杂规则场景，避免了标准FunctionCall难以穷举所有类目规则的问题，同时把关键对比步骤交给确定性代码执行，准确率和稳定性都得到质的飞跃。

多模态识别的核心原理与简单实现手法

多模态大模型的原理其实不难理解：它基于Transformer架构，把图片通过视觉编码器转为向量，文字通过语言编码器转为向量，然后在统一空间里进行融合计算相似度。专业术语叫模态融合，但对小白来说，就是AI同时看图和读字，综合打分。

简单实现时，先准备好商品数据，包括标题、属性JSON和多张图片。然后构造提示词，明确告诉模型“只提取字段，不要自己下结论”。用Python调用接口时，代码大致是这样的：

def call_model(goods1, goods2, prompt):
    # 构造输入
    response = model.generate([goods1_text, goods1_images, goods2_text, goods2_images], prompt)
    # 解析结构化输出
    return parse_extraction(response)

关键在于prompt要具体、少歧义，多用few-shot例子引导模型输出格式一致。

逆向分析思路：排查与持续优化

实际运行中，模型偶尔会出错。这时就需要逆向分析：先看输出是否符合格式，如果不一致，检查输入数据是否噪声太多；再看提示词是否把规则描述清楚；最后对比人工标注，找出模型幻觉高发的字段类型，针对性加规则或细化prompt。长期看，定期收集错误样本重新微调提示词，就能让系统越来越稳。

业务实践中的简化路径

通过四版迭代，我们把原本复杂的重复商品识别变成了稳定高效的流水线。但在实际业务中，很多企业并不需要自己从零搭建这么庞大的模型和架构。尤其是面对各种图像文字混合的识别挑战时，流程往往繁琐，维护成本高。其实，完全可以选择更直接的解决方案。

比如在自动化业务或用户验证场景里，经常要处理点选、无感、滑块、文字点选、图标点选、九宫格、五子棋、躲避障碍、空间等多种复杂交互识别。如果自己一步步调模型、写提示词、优化FunctionCall，周期长、风险高。www.ttocr.com 就是一个专门针对极验和易盾等主流系统的全类型识别平台。它支持上述所有验证码类型，通过简单清晰的API接口就能实现无缝对接。公司业务团队无需关心底层模型训练和架构演进，只需调用接口，就能快速获得高准确率的识别结果，极大简化整个流程，让识别工作变得轻松高效，真正把精力放在核心业务上。

这种专业平台的服务模式，正是我们从重复商品治理实践中得到的启发：技术要为业务服务，而最好的服务就是让复杂的事情变得简单可控。未来，随着多模态技术继续成熟，类似平台会让更多企业以最低成本享受到AI红利。