大语言模型为高级规划层铺平道路，工业从自动化走向智能化

声波 2023年8月3日 AI, 人工智能留言 877 查看

在工业界，传统自动化方案均是将知识灌入机器人系统，通过编程的形式实现自动批量处理事务的功能。因此诞生了一系列计算机视觉的任务和机器人控制的任务，比如一个完整的抓取分拣操作，包含了3D感知、配准、点云分割、抓取点估计、任务重排、规划、2D校准等任务，通过强大的工业软件将这些技术点耦合在一起，这样催生了工业上的绝大部分应用。

这样的应用具有可控、重复性高的特点，但是整个方案实施成本高、柔性低、换线复杂，并且每个方案都是独特的，缺乏基准和技术一致性，非常不利于整体技术的进步，因此“解决方案”这四个字是整个行业的痛。

人类经常被物化为工业流水线中最柔性的执行机构，是因为人观察和学习周围的环境，使用自己的大脑充分的利用自己的身体完成各种复杂的任务，并且在执行中不断受到更新自己的认知，这种以身体为舟，性命为本，在尘世航行的模式，正是智能化追求的一种理想形式。这正是1950 年图灵论文中提到的具身智能。

工业机器人的智能化发展始于具身智能。具身智能是指人工智能具有身体，需要与真实世界进行交互。这种交互不仅涉及视觉上的高维特征提取，还包括其他感官信息，例如听觉、嗅觉、味觉和触觉。通过这种交互，智能体可以获取物理世界的真实反馈，并通过反馈来学习并进化。具身智能是一种重要的发展方向，可以帮助机器人更好地完成任务。

而在具身智能执行步骤一般为多传感器的real to sim，然后sim to real的过程，具体的过程如下：

– Real to Sim

通过多种感知设备和算法，尽量将现实世界的信息能够还原到虚拟环境中

– Sim to Real

在经过模拟和规划后，将算法和规划应用到实际机器人上

以前为什么不能提具身智能，是因为技术复杂，各个技术点发展不成熟，但是目前2023年，很多工作已经发展到一定的阶段，尤其是大语言模型彻底改变了语义理解和顶层规划的困难。

1. 大语言模型的发展为高级规划层铺平了道路

随着chatgpt证明了大语言模型具有较强的综合思考、逻辑能力、数理能力，大语言模型越来越被证明，其作为机器人的上层逻辑规划器是非常有希望的，一举改变了机器人系统不智能的缺点。尤其值得注意的是最近chain of thought配合LLMs的一些研究表明，通用AGI似乎并不遥远了。

图1 大语言模型的发展图2 Chain of thought在无害化方向的作用

2. 多模态模型的发展

Transformer等结构带来的多模态模型的发展，对统一图像、行为理解、语音、动作等提供了技术基础。2023年3月6日，来自谷歌和德国林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型 PaLM-E( Pathways Language Model with Embodied)。机器人可以通过图片理解现状，并根据文字指令完成任务。

CVPR2023的best paper，UniAD工作可以端到端的处理多个自动驾驶任务，并实现了一个自动驾驶的任务的全局最优化方案，这意味者模型可以统一的理解所有的关键信息并作出决策。

3. Nerf-based 模型的发展为2D感知和重建提供了丰富的手段

NeRF（Neural Radiance Fields神经辐射场）最早是在2020年ECCV会议上的最佳论文中提出的概念，其将隐式表达推上了一个新的高度，仅用2D的posed images作为监督，即可表示复杂的三维场景。

Nerf的出现改变了2D估计3D的方案，基于Nerf的slam工作、重建工作等都获得了极大的发展，改变了模型认知世界的方法。

Nerf-based slam技术在稠密建图导航中大放异彩，以NICE-SLAM为代表的模型在精度上有了较大的进步。CVPR2023的UniSim工作实现了高度逼真、闭环测试(closed-loop simulation)、可扩展 (scalable), 只需要采集一次数据, 就能重建并仿真测试。

基于当前智能技术的发展，微亿智造又是如何塑造其技术路线，朝向工业智能化发展的呢？

微亿智造提出了独特的工业智能机器人的渐进式路线：以“眼手脑云”的实施架构为基础，聚焦于可累积数据场景和通用关键技术，打造虚实结合的应用产品，渐进式的实现机器人智能化。

“眼”指的是微亿智造自研的图像感知技术与可组合光学成像系统；“手”即是机器人智能控制，所有的技术都要通过“手”来实现工程化落地；“脑”是更贴合离散制造需求的多任务学习和小样本训练技术；“云”则是一个既能为“脑”提供算力支撑，又能链接政府与企业的云平台。

下面我们拆解一下微亿智造去年年底推出的数字工人——工小匠产品是如何践行这个理念的。

1. 针对碎片化的缺陷检测工艺，建立统一的硬件载体和软件系统

传统的外观缺陷工作分为光、机、电、算、软五部分工作，而相关技术经验和工作流都是散落在不同的工作流中。比如如果用到了机械臂，所有的机械臂程序都会在机械臂厂家定义的软件空间里，那么相关的角度、打光方案、算法效果就无法被记录，从而缺少了改进的机会。微亿智造将机台标准化、集成化，一体式的完成从方案到实施的全过程，这就将所有的技术工作串联了起来。这样统一工程化的形式，一是可改进，二是可量化，三是减少了闭环的回路长度。

2. 全栈自研算法加持，加速实现全链条应用落地

工小匠集成了运动控制算法、缺陷检测算法和光学智能推荐算法，加速全链条的应用速度。其中运动控制算法采用自研六轴机械臂位姿计算和三阶约束的最优时间轨迹规划，可以稳定快速的解算出机械臂的最优运动轨迹。而缺陷检测方面，基于知识注入和缺陷生成的全流程缺陷检测系统，在数据注入后马上生成模型方案，并且在多条产线上实际验证能够2周内达到检测标准。本系统中同时集成了对光学方案的智能推荐，并且把经验源源不断的注入到模型里，实现了光学的智能调试，这也是专机系统无法完成和持续进步的。如此强大的算法系统保证了速度最优、上线迅速、可迭代，且赋予了系统更强大的执行力。

3. 践行real2sim，sim2real的理念

在工小匠产品中，微亿智造操作的对象是工件，工件的拍照点位、光学方案都可以在数字空间中设置和分析，优化后的实施方案可以通过所谓的“工小匠”硬件机台去实施，而用户无需关心“工小匠”是一个什么样的机台，这就为数据记录和工艺记录铺平了道路，实施的扩展性和方便性非常高。比如更换了工装，我们不用再调试机械臂了，复制100台，我们也不用单独去调试每个机械臂，机台系统会自动适应这个对象。这便是具备了具身智能的概念，使机器智能的思考如何执行。

而相同的事情也发生在其他的工艺过程中，无论是缺陷检测、尺寸量测、打磨、涂胶，都可以践行相同的理念和系统，从而让整个工业现场变得可被优化。纵观整个工业智能的发展，之所以远远比不上消费端的发展速度，其根本原因是相关的基础元素没有被很好的数字化。而微亿智造基于眼、手、脑、云的技术架构将整个机器人工艺链条全部数字化，在产线上不断地与AI协同进化，可以预见这些工艺将会以前所未有的速度升级迭代。

在当前的技术潮流下，感、知、控等技术都已经飞速发展，实现工业智能化的要素逐渐齐备，微亿智造这样的公司正是推进这个流程的排头兵，希望早日看到大潮漫灌！

大语言模型为高级规划层铺平道路，工业从自动化走向智能化

关于 声波

检查

发表评论 取消回复

关于声波

发表评论取消回复