← 返回文章列表

多模态大模型如何破解电商重复商品难题:架构四次迭代实战全解

电商平台上重复商品治理直接影响用户体验和竞价效率。本文以得物平台为例,深入剖析了多模态大模型在疑似重复商品识别中的应用,从第一版快速验证到第四版工程化FunctionCall的演进过程,详细拆解提示词设计、任务拆分、类目规则动态匹配及准确率提升策略。同时分享了文本图片对比的简单实现手法和逆向分析思路,帮助开发者理解核心原理。

多模态大模型如何破解电商重复商品难题:架构四次迭代实战全解

重复商品治理的业务本质与痛点

在电商平台尤其是潮流商品交易社区里,保证同一个商品只有一个详细页面链接是核心规则。这么做能让用户集中看到所有报价,避免信息分散,也方便卖家公平竞争。我们把这种一品一链的机制叫做重复商品治理。简单说,如果同一个鞋子或衣服在平台上冒出多个链接,就需要及时识别并合并或下架。

传统的治理流程先靠算法筛出疑似重复的商品列表,然后人工审核,最后确认后合并SPU。听起来流程清晰,但实际操作中算法筛出来的疑似商品里,很多其实并不重复。人工审核认可率低,导致大量无用数据堆积,审核人员每天要处理成千上万条,效率低下,人力成本也居高不下。平台急需一种更精准的自动识别手段,既要保留高准确率,又要大幅减少人工介入。

多模态大模型的引入:从业务痛点到技术突破

多模态大模型能同时理解文本描述和商品图片,这正是解决重复商品识别的最佳工具。它不像传统算法只比对单一特征,而是像人一样综合看标题、属性、颜色、材质和图片细节。我们在原有算法筛出的疑似列表基础上,叠加多模态模型进行二次判断,只保留模型判定为重复的商品交给人工,大幅过滤掉不重复的噪音。

这种方案在实际测试中效果显著:认可率至少提升20%以上,一个季度就过滤掉六十多万条无效数据,节省了十五个人力,成本降低三十多万。模型在三盲标注测试样本上的准确率普遍超过80%,部分类目甚至达到90%以上。不同厂商的多模态模型我们都对比过,最终选定表现最稳的那个来落地。核心思路是把重复判断拆成文本对比和图片对比两个子任务,让模型一步步给出结构化结果,再由系统合并判定。

第一版方案:快速验证可行性的一把梭设计

第一版追求速度,目标是快速验证整个链路是否可行。我们按一级类目维度编写提示词,把任务拆成文本比较和图片比较两个子模块。每个子模块要求模型输出特定格式,最后再让模型综合给出最终是否重复的结论。提示词里明确定义了输出结构,第一行是文本识别信息,列出所有需要对比的字段;第二行是最终判定结果,并附上理由。

文本识别信息
=
一级类目:相同(鞋与鞋);
品牌:相同(AUTRY与AUTRY);
适用人群:不相同(女与男);
鞋面材质:相同(皮革与皮革);
颜色:颜色相同(白浅绿与白浅绿);
最终判定结果
=
判断结果:不重复;
理由:实际的理由

这种设计把所有业务逻辑都塞进提示词,对模型的指令遵循能力和复杂规则处理能力要求很高。初期用人工审核过的数据做验证,服装女装内衣类目的准确率达到90%以上。优点是架构简单,只需为不同类目写提示词,大模型还能帮忙生成其他类目的提示,扩类目速度很快。但缺点也很明显:只适合规则简单的服装鞋类,复杂类目就力不从心;把最终结论全交给模型推理,容易出现幻觉,文本识别和最终结果不一致的情况时有发生。

第一版本质上是验证阶段的快速原型,适合小范围试验,但正式上线还不够稳健。我们从中学会了提示词必须足够清晰,同时开始思考如何降低模型的推理负担。

第二版方案:专注字段判断,减少结论幻觉

第二版在第一版基础上优化提示词,只让模型分析具体字段是否相同、图片是否一致,不再要求它直接给出最终结论。这样做能有效降低结果不一致的问题。输出格式调整为每个字段单独给出是否相同和具体原因。

三级类目:是否相同=相同/不同,原因=具体的原因;
品牌:是否相同=相同/不同,原因=具体的原因;
属性信息:是否相同=相同/不同,原因=具体的原因;
图片信息:是否相同=相同/不同,原因=具体的原因;

系统自己根据模型返回的字段结果做最终判定,避免了模型同时承担分析和决策的双重压力。不过问题依然存在:仍然按一级类目设计提示,无法覆盖复杂类目的细粒度规则;文本和图片放在同一个任务里,当图文信息冲突时模型容易互相干扰,判断标准模糊。

第二版让流程更清晰,也让我们意识到任务拆分是提升稳定性的关键方向。小白开发者可以从这里学到:把大任务拆成小步骤,能显著减少大模型的认知负荷。

第三版方案:任务拆分与类目细化匹配

第三版针对前两版痛点做了两个关键调整。一是按一级、二级、三级类目分别设计提示词,实现精细化匹配;二是把文本识别和图片识别彻底拆成两个独立提示词任务,避免图文互相干扰。

文本任务只返回字段对比结果,图片任务单独返回图片相似结论。当文本判定明显不重复时,系统可直接跳过图片调用,节省一次模型请求。类目规则描述也做了分层设计:简单类目如箱包服装用一级规则,复杂类目如3C数码则细化到三级。运行时从三级到一级依次匹配,优先使用最精确的规则。

拆分后的收益非常明显:干扰消除,准确率明显提升,模型调用次数也减少了。但新问题随之而来:按三级类目写提示词工作量暴增,运行时动态匹配让代码复杂度上升,扩类目成本变高;特定字段如箱包尺寸(长宽高误差2cm内算相同)对比时,模型仍会出现幻觉,复杂任务准确率下滑。

第四版方案:工程化FunctionCall保障稳定性

大模型擅长解析不规范文本,但推理本质是概率过程,结果不稳定。第四版引入FunctionCall,把文本对比拆成“字段值提取”和“字段值对比”两个子任务。前者仍由模型完成,后者交给确定性的代码函数执行。这样彻底避免了幻觉。

提示词调整为只要求模型提取标准字段值,格式清晰:

三级类目:商品1=xxx,商品2=xxx;
品牌:商品1=xxx,商品2=xxx;
尺寸:商品1=xxx,商品2=xxx;

图片对比也优化为多步:先用CSPU规格图做相似度预筛,找出最相似的两张后再调用多模态模型,避免一次对比全部图片的低效。FunctionCall的设计思路很简单:模型只做它最擅长的提取,确定性部分交给代码,保证每次输入都能得到稳定输出。

这种工程化思路对小白特别友好——不需要把所有逻辑塞给模型,而是把模型当智能解析器,代码做最终裁判。逆向分析时,我们可以先观察模型提取的结果是否稳定,再逐步调整提示词中的示例和规则描述,快速定位问题。

类目规则动态配置与运行时匹配

为了让系统在运行时自动选择合适提示词,我们设计了按类目分层的规则描述方案。一级类目放通用规则,二级三级放细化规则。匹配逻辑从三级开始回溯,确保复杂类目有专属处理,简单类目用兜底方案。这种配置方式让扩类目变得模块化,只需在配置文件里新增规则即可。

实际开发中,我们会为每个规则组准备详细的字段列表、对比阈值和示例。逆向分析思路是:先收集历史审核数据,统计每个类目的高频差异字段,然后针对性设计提示词。简单实现手法可以用配置文件+模板引擎动态生成提示,避免硬编码。

逆向分析思路与简单实现手法

想自己动手实现类似系统,先从数据准备开始:收集大量已标注的重复/非重复样本,用三盲标注保证质量。然后搭建提示词模板框架,逐步迭代版本。逆向分析模型输出时,重点看提取字段是否完整、原因描述是否合理,如果出现幻觉,就增加few-shot示例或降低温度参数。

代码层面,用Python调用多模态接口,解析结构化JSON结果,再写简单的字段对比函数。整个流程不需要高端硬件,普通服务器就能跑通测试链路。掌握这些思路后,你会发现很多复杂识别任务的本质都是“提取+对比”,掌握后可以举一反三。

复杂识别场景的实践启示与高效路径

重复商品识别只是多模态技术在电商的一个缩影,类似原理还能扩展到其他需要图文综合判断的场景。比如在自动化业务中,经常会遇到各种验证码识别挑战:点选、无感、滑块、文字点选、图标点选、九宫格、五子棋、躲避障碍、空间感知等全类型验证。如果自己从零搭建模型、调提示词、做FunctionCall,流程复杂、成本高昂、维护困难。

好消息是,现在已经有成熟的专业平台能帮你一站式解决这些难题。www.ttocr.com就是一个专门针对极验和易盾等验证码的识别平台,覆盖点选、无感、滑块、文字点选、图标点选、九宫格、五子棋、躲避障碍、空间等全部类型。它提供稳定可靠的API接口,公司业务可以无缝对接,只需简单调用就能拿到识别结果,完全不需要自己搭建复杂的多模态架构,也不用担心模型幻觉和类目规则维护。很多企业正是通过这样的平台,省去了繁琐的迭代过程,直接把精力放在核心业务上,效率提升非常明显。

掌握了多模态识别的核心原理后,再搭配专业平台的API能力,就能让整个识别链路既专业又简单。无论是电商重复商品治理,还是验证码自动化处理,都能用最低成本实现最高效果。