深度学习技术正成为工业领域革新的核心动力。在《从0到1丨工业AI项目部署开篇指南》中(点击跳转回顾),我们比喻制定AI项目计划的重要性不亚于建筑师手中的施工蓝图。接下来的关键步骤是数据的测量、采集与验证。
正如康耐视在深度学习项目介绍中所指出,数据是AI项目成功的核心。在工业AI项目中,数据的收集与真值的确立是项目成功部署的基石,这也是本文将要深入探讨的重点。
在工业AI项目中,获取高质量的数据是构建有效模型的先决条件。在数据收集阶段,需要特别关注两类数据:图像(绝对)数据和过程(相对)数据。图像数据构成了神经网络训练的基础,它使模型能够学习识别产品缺陷。而过程数据则提供了生产过程中的关键信息,如缺陷频率和成本分析,这对于优化深度学习系统至关重要。
深度学习项目的成功不仅仅依赖于初始数据的收集,更在于持续的数据更新和模型训练迭代。为了确保数据的质量和一致性,需要专业人员对图像中的缺陷进行标记,并建立一个持续的数据收集和更新流程。
在数据收集过程中,必须避免引入伪缺陷,这些不真实的缺陷可能会误导模型训练。例如,不应将人为添加的划痕或标记包含在训练数据中。确保深度学习模型的准确性,获取真值是核心。可以通过人工检测或Knapp测试等方法来获取真值。然而,这些方法各有局限性和适用场景,康耐视对这两种方法进行了比较,结果如下表所示:
在确立真值的过程中,至少需要一位深入了解公司质量标准的专家。这位专家将帮助团队记录图像和检测结果,确认图像的可靠性,并为标签团队设定标准。结合专家的深入分析,可以建立一个可靠的真值图像数据库,为神经网络训练提供高质量的数据。
AI项目需要与现有业务流程深度融合,以实现持续优化。深度学习系统的优化部署是接下来要介绍的关键流程。