在机器视觉工业检测中,关于特征提取,我们习惯谈及传统机器视觉和深度学习这两项关键技术,并将其作比较。二者在工业检测应用中各有优劣,主要在于特征提取的方法不同。传统机器视觉依赖于人工设计的特征提取和规则匹配算法,例如边缘检测、阈值分割等。这些方法在面对简单、模式已知的缺陷时表现尚可,但当缺陷呈现出不规则形状、复杂背景或细微难察的特征时,其局限性便显而易见。随着深度学习技术的飞速发展,其在图像识别、模式分类等领域的强大能力为工业缺陷检测带来了革命性的突破。深度学习模型,特别是卷积神经网络(CNN),能够自动从海量图像数据中学习并提取多层次、高维度的抽象特征,摆脱了对繁琐的人工特征工程的依赖。这种自主特征学习能力使得深度学习能够有效识别传统方法难以企及的复杂缺陷。
一、工业检测中缺陷分类存在哪些挑战?为何传统方法捉襟见肘?
工业缺陷的定义通常需要结合实际场景,其本质是“正常范围之外的模式”。根据缺陷的表现形式和位置,可以将工业缺陷分为两大主要类型:
- 表面缺陷:主要出现在产品局部表面,表现为纹理突变、异常区域或不规则的图案。例如,金属表面的划痕、纺织品的破洞、电子元件的色块等。
- 结构缺陷:由产品整体结构错误所导致,如形变、错位、缺损或污染。例如,弯曲的铁丝或位置不正确的二极管。
尽管深度学习带来了新的技术范式,但在实际的工业视觉缺陷检测中,依然面临着一系列根深蒂固的挑战。这些挑战不仅是技术问题,更是制约该技术大规模落地应用的关键瓶颈。
(一)挑战一:数据困境——样本匮乏与类别极度不平衡
工业缺陷检测的首要挑战源于数据的获取和标注。由于生产过程对次品率的严格控制,缺陷品在实际生产中属于罕见事件。这导致了可用的缺陷样本数量非常有限,与大量的正常样本形成了极度不平衡的数据集。这种数据分布上的严重倾斜使得传统的有监督学习方法难以有效训练,模型很容易过度学习正常样本的特征,从而对缺陷样本的识别性能较差。
缺陷通常是不规则且种类繁多的。同时,缺陷往往仅占据高分辨率图像的一小部分区域,且与背景对比度低,标注难度高。对缺陷进行精确的像素级标注需要耗费大量的人力和物力。高昂的标注成本加剧了可用标注数据的稀缺性,使得仅依赖传统有监督学习变得不可持续。
(二)挑战二:任务复杂度——细微缺陷、复杂背景与不规则形状
工业缺陷的物理特性为检测任务带来了巨大的挑战。很多缺陷,比如金属表面上细微的划痕,或是电子元件里微小的气泡,在高清图像中也只占很小一块区域,颜色、纹理跟周围背景差别不大,不明显,很容易被忽略。再加上拍摄时产生的图像噪声,缺陷特征就更难被分辨出来了,就像在嘈杂的环境里听清微弱的声音一样困难。
另一方面,工业缺陷的形状往往没有规则,大小也千差万别。这种情况下,传统的用矩形框标记目标的方法就显得很吃力——框大了会包进太多无关背景,框小了又可能盖不住缺陷,反而干扰模型判断、影响检测效果。所以,在实际应用中,越来越多的人开始采用更精确的“缺陷分割”方法。这种方法可以对缺陷进行像素级的定位,就像是一笔一笔勾出它的实际轮廓,不再依赖方框,结果自然更清晰、更可靠。
(三)挑战三:严苛的性能指标——高精度与高速度的双重要求
工业生产线对AI检测系统提出了极为严苛的性能要求,即“高精度”与“高速度”的双重标准。高精度是确保产品质量和企业信誉的关键,任何漏检都可能导致严重的后果,特别是在医疗设备或汽车发动机部件等安全攸关的领域 。而高速度则直接决定了系统能否满足生产线的实时检测需求,从而确保生产效率不受影响。不管是传统视觉还是深度学习办法,尤其是一些高精度的复杂模型,由于计算量大、参数量多,难以同时满足这两个要求,使得其在实际落地应用中面临困境。
(四)挑战四:泛化能力——面对未知缺陷与多变环境
在实际的生产环境中,新类型的缺陷会不断涌现,而现有的训练数据集往往无法涵盖所有可能的缺陷类型。这使得模型在面对未曾见过的缺陷时,泛化能力受到严重考验。此外,工业现场的光照、震动等环境因素复杂多变,对模型的鲁棒性提出了更高要求。这直接推动了行业从传统的依赖于针对特定缺陷训练模型的“算法驱动”时代,向更注重数据质量和模型泛化能力的“数据为中心”的范式转变。
二、深度学习技术:从分类到分割的演进
(一)基于监督学习的方法:主流与局限
监督学习方法要求充足而精确的样本标注。在缺陷模式已知且有足够数据的情况下,有监督方法可以从分类、检测和分割三个角度进行设计。
(1)图像分类
图像分类是最基础的深度学习任务之一,其目标是将整幅图像归类为预设的类别,例如“正常”或“有缺陷”,甚至进一步细分为具体的缺陷类型。卷积神经网络(CNN)是该任务的核心架构,它通过由卷积层、池化层和全连接层组成的网络结构,自动从图像中提取并学习特征。每一层都建立在之前的基础上,从简单的边缘、颜色等低级特征,逐步识别出更复杂的模式和形状。然而,这种方法的一大局限在于,它仅能给出图像级别的判断,无法提供缺陷的具体位置信息,这在需要精确定位和分析缺陷根源的工业场景中是不够的。
(2)目标检测与语义分割
目标检测和语义分割方法能够较好解决定位问题,目标检测(如YOLO)通过在图像中绘制矩形框来定位缺陷。而语义分割(如Mask R-CNN, U-Net)则将任务推向了像素级,能够为图像中的每一个像素分配类别标签,从而精确地分割出缺陷区域。鉴于工业缺陷形状的不规则性和尺寸的多变性,基于矩形框的检测方法难以准确表示缺陷位置,且容易引入无关背景信息。因此,在实际应用中,像素级的缺陷分割方法因其更高的精度而受到更多关注。
在众多分割网络中,U-Net因其独特的架构和在小样本数据上的优异性能而脱颖而出。U-Net采用一种编解码器(Encoder-Decoder)结构,左侧的编码器(收缩路径)通过多次下采样来提取图像的抽象特征,而右侧的解码器(扩张路径)则通过上采样来恢复图像的分辨率。其核心设计在于编解码器之间的跳跃连接,这一机制将编码器中的浅层特征图与解码器中的深层特征图进行融合,从而在恢复高分辨率的同时保留了图像的精细细节和空间信息。这一结构使其能够在不显著增加计算成本的情况下,实现对细微缺陷的精准分割。实践证明,U-Net在金属工件表面缺陷分割等任务中表现优异,并且可以通过引入注意力机制或瓶颈注意力模块等改进手段,进一步提升其分割精度和抗干扰能力。
(二)基于无监督/半监督学习的方法:应对数据稀缺的利器
(1)无监督学习
无监督学习的核心思想是在缺陷模式未知或缺陷样本极度稀缺时,通过仅学习“正常”样本的模式来构建模型,并将任何偏离该正常模式的样本视为异常或缺陷。自编码器和变分自编码器是实现无监督缺陷检测的典型网络结构。自编码器由一个编码器和一个解码器组成,编码器将输入图像压缩为隐空间变量,解码器则利用该变量重建图像。模型仅使用大量正常样本进行训练,因此它能够很好地重建正常图像,但对于训练中未见过的缺陷图像,其重建效果会很差,重建误差(即原始图像与重建图像的差异)会显著增大。通过设定一个重建误差阈值,便可实现缺陷的定位。然而,自编码器在重建时存在模糊现象,容易导致正常像素点被误检。变分自编码器通过引入隐空间的先验分布来缓解这个问题,但其生成的图像往往也比较模糊。虽然无监督方法在理论上解决了数据难题,但在面对复杂的工业产品(如3C产品)时,其精度表现仍不尽如人意,更适用于白底黑点等简单场景 。
(2)半监督学习
半监督学习被视为监督学习和无监督学习的“中间立场”,它结合了少量有标签的缺陷数据和大量的无标签数据进行训练。这种方法尤为适用于标注成本高昂、但无标签数据易于获取的工业场景。有标签数据为模型预测奠定了基础,而无标签数据则提供了丰富的上下文信息和数据结构,帮助模型学习更准确的决策边界,从而在有限的标注资源下,也能显著提升模型的性能和泛化能力。
(三)解决数据的创新方案
除了上述学习方法,一系列创新技术也正在从根本上解决工业视觉数据困境。
- 数据增强:传统的数据增强技术如裁剪、翻转、颜色变换等,通过对现有图像进行变换来扩充数据集。而更具颠覆性的方法是利用生成式对抗网络(GAN)。GAN通过“生成器”和“判别器”的对抗训练,能够从非常有限的缺陷样本中生成高清晰度、高多样性的虚拟缺陷数据。这种方法极大地扩充了训练集,被认为是解决数据困局的关键技术之一。
- 迁移学习与小样本学习:迁移学习的核心思想是将从一个任务中学到的知识应用到另一个相关任务中。在工业缺陷检测中,通常会使用在大规模自然图像数据集(如ImageNet)上预训练的深度学习模型。这些预训练模型已经具备了强大的特征提取能力,可以作为“骨干网络”,只需用少量缺陷样本进行微调训练,即可快速适应新的缺陷检测任务。这种方法有效解决了小样本问题,并显著提升了模型的泛化能力。
- 损失函数优化与评价指标:面对类别不平衡问题,传统的准确率(Accuracy)指标会产生误导,因为它无法区分模型是真正识别出了缺陷,还是仅仅将所有样本都归类为数量庞大的正常样本。为了解决这一问题,研究者采用了重加权损失函数,通过提高稀有类别(即缺陷样本)的损失贡献来平衡训练过程,从而提升模型对缺陷的识别精度。同时,使用如AUC、F1-Score、mAP(平均精度均值)和Dice系数等更能全面反映模型性能的评价指标。
三、端到端的实施流程:从图像采集到生产线部署
上面分析为应对深度学习技术大规模落地要面临数据匮乏、类别不平衡、高精度和高速度的双重需求,以及泛化能力不足等核心挑战,行业已发展出多条技术路线:在数据充足时,以U-Net为代表的监督学习分割网络因其像素级的高精度而备受青睐;而在数据稀缺的场景下,无监督和半监督学习提供了无需大量标注的替代方案。此外,生成式AI、迁移学习等创新技术正在从根本上解决数据困境,通过生成高质量的虚拟数据或迁移知识,显著提升了模型的泛化能力。
一个完整的深度学习缺陷检测系统并非孤立的算法模型,而是一个包含硬件、软件和流程的端到端集成系统。其工作流程可以概括为前端、中端和后端三个阶段。
(一)前端:图像采集与预处理
高质量的图像是所有后续步骤的基础。这一阶段需要进行精心的硬件选型和环境设置。
- 硬件选型:包括选择合适的工业相机(如高分辨率相机)、镜头和光源。通过工业相机采集产品表面图像,包含划痕、气孔、脏污、裂纹等不同类型的缺陷。光源的照明模式对缺陷的可见度至关重要,例如前向照明用于突出表面细节,而后向照明则可用于检测轮廓和缺损。
- 图像预处理:在图像进入网络之前,通常需要进行预处理以提升图像质量和信噪比。常用方法包括:一是图像增强:通过直方图均衡化、对比度拉伸等技术,提高缺陷与背景的对比度,使其更易于被模型识别。二是去噪:通过中值滤波器或基于神经网络的方法,消除由于现场环境或成像系统引入的噪声干扰。
(二)中端:模型训练与评估
这一阶段是深度学习的核心,旨在构建和优化能够准确识别缺陷的AI模型。
- 数据集的构建与标注:根据应用场景,构建包含足够数量和多样性的图像数据集,并使用专业工具进行精确标注。
- 模型训练与验证:将数据集划分为训练集、验证集和测试集。在训练过程中,模型通过反向传播和梯度下降等技术,不断优化其参数,以最小化预设的损失函数。
- 性能评估:使用一系列严谨的指标来评估模型性能,包括但不限于精确率(Precision)、召回率(Recall)、F1-Score、mAP(平均精度均值)和用于分割任务的Dice系数。
(三)后端:推理与系统集成
模型训练完成后,必须经过一系列优化和部署,才能真正在生产线中发挥作用。
(1)模型部署与推理流程:深度学习模型部署后的核心推理流程可分为三步:
- 前处理:将实时采集的原始图像数据转换为适合网络输入的张量格式,并进行必要的归一化等操作。
- 推理执行:将优化后的模型部署到计算硬件(如GPU、TPU或专用芯片)上,执行推理计算,得到输出数据。为满足工业现场的低算力、高速度要求,模型通常会进行轻量化优化,如模型转换(ONNX)、量化或剪枝。
- 后处理:对模型的输出结果进行进一步加工,例如根据阈值筛选出最终的缺陷位置或类型,并生成最终的告警或报告。
(2)系统集成与自动化产线融合
AI模型并非孤立的软件,它需要作为整个自动化系统的“大脑”,与生产线上的各种硬件和软件紧密集成。一个完整的自动化系统能够实现从图像抓取、缺陷识别、不良品分类到最终剔除的端到端流程。这一过程需要将AI模型与机械臂、剔除装置、MES(制造执行系统)等进行无缝对接,形成一个高鲁棒、可自动化的“AI+工业”闭环。仅仅提供一个高性能的AI模型是不够的,真正的挑战在于将AI算法与OT(操作技术)层面的硬件和系统无缝融合。这需要既懂AI技术又熟悉工业领域的复合型人才,也是目前行业面临的瓶颈之一。
四、发展趋势:从“可用”到“可靠”的未来之路
尽管深度学习在工业缺陷检测中取得了显著进展,但其发展仍处于动态演进中,未来的方向将聚焦于如何从“可用”走向“可靠”,并最终实现大规模的落地应用。
(一)可解释性AI
多数深度学习模型,特别是复杂的神经网络,被视为“黑箱”,其决策过程难以被人类理解。在对安全和质量要求严苛的工业场景中,无法解释的决策难以被工厂管理人员和工程师所信赖,从而阻碍了其大规模部署。可解释性AI的出现旨在解决这一问题。XAI通过提供对模型决策过程的洞察,帮助研究者和领域专家理解模型为何做出特定判断,从而能够进一步优化和改进模型。更重要的是,可解释性能够帮助工厂管理人员进行根本原因分析。例如,通过分析缺陷数据,并结合模型对缺陷区域的关注点,能够追溯并诊断生产线中导致缺陷出现的原因,从而实现从“事后检测”到“事前预防”的转变。常用的可解释性AI技术,如类激活映射能够生成热力图,直观地可视化模型在图像中关注的区域,以此来解释其分类决策。展望未来,可解释性AI(XAI)将成为建立人机信任、实现缺陷根本原因分析的关键技术,从而推动AI在安全攸关领域的应用。同时,工业大模型虽然面临诸多现实挑战,但其在提升泛化能力、降低部署门槛方面的潜力仍值得期待。
(二)工业大模型与通用模型:提升泛化能力与降低部署门槛
工业AI面临着数据碎片化和高度非标准化的挑战。传统上,每个工业场景都需要单独收集数据并训练模型,部署周期长且成本高昂。工业大模型旨在通过海量数据预训练,获得强大的泛化能力,从而用少量数据甚至无需额外训练即可适应新的工业场景。这种模式有望重构工业视觉的检测范式,降低AI技术的应用门槛。然而,对于大模型在工业领域的应用,业界存在着激烈的争论。支持者认为,在海量工业数据的支撑下,大模型通过其预训练泛化能力和软件定义硬件的灵活性,能够实现技术上的“弯道超车“。反对者则指出,工业场景的独特性(如高度非标准化、数据私有化)以及对实时性的严苛要求,使得大模型在成本、适配性和可靠性方面仍面临现实挑战。
总而言之,深度学习与机器视觉的深度融合,正在从根本上改变制造业的质量控制范式。通过持续的技术创新、跨领域的人才培养和健康的产业生态构建,AI视觉检测将最终实现从实验室到生产线的全面渗透,成为塑造智能制造未来的核心驱动力。