机器人在多模态感知与执行层面的现状与挑战

豆抖大人2025-12-12 22:12:35

嗯，具体的执行的过程中，感知里面呢，我们会认为在视觉与视觉大模型这一层，我会觉得它已经是ready了。但是在多模态的感知这一层上面，就是我们除了视觉以外可能还有其他的东西，比如嗅觉、味觉。那在机器人做饭的时候，你不可能说我只看看颜色就知道这个事情是不是好的。尤其是在具体烹饪的时候，还要监测它的的温度或者食物它到底什么样的一个层级。不是说是一个个眼睛看就能看得出来它的味道是什么样的了。视觉以外的这种感知层，目前最起码做的人还比较少。没有人说把一个嗅觉加到机器人的大模型，或者把一个味觉加进去。这块传感器有没有还不知道。再往后走就刚好规划或者说到执行这一层。执行这个上面来看的话，涉及到具体操作过程中的，特别是涉及到和真实物理世界中的一些接触的这个地方，我们会觉得这个人是没有那么高。因为接触和飞机就像是有一个冲击的这样一个效果在里面的。它的一个建模相对来说是非常困难的。做抓取的时候，一个非常明显的一个脚趾往前面移动一个毫米，得到的结果是完全是两个世界的事情。涉及到非常严格的这种contact的时候，实际上是完全不ready的。无论是从硬件感知还是从它的执行，要让一个机器人操作这件事情走进我们的日常生活中。那这个问题前土地可能成熟度20%、30%都不到。就是无论是从它的控制上，硬件上也好，还是从它算法传感器等等，这这一方面我觉得都不是他们的热点。稍微补充一点，就是什么是ready的吧，就是不需要接触的东西相对的多一点。我们可能再多要分三层的。比如说一个planning的，包括很多的人机交互啊，它的那个自动啊什么不需要动，不需要真实的动。第二步就是说每个这个单元的motion scale也好，还是动作也好好去接触这个物体，改变这个工具的心态。然后接下来是整个的一个温度控制啊，会用掉我的。那第三层对我觉得相对比较成熟，大模型或者多模态感知对上两层都有帮助，都需要感知。就小就不在这种大模型可以相对于方一些，但是目前也是很不错。然后下一个就是说感知，感知是帮助你跟别人进行慷慨或者maintain contract，这个步骤还是相对比较难的那我觉得模仿学习的这一块可能会有一定的可预期的效果。让数据足够多任务足够简单的时候呢，肯定是ok的。任务特别多的，泛化要求很高的情况下，那这个也是未来很期待的一个技术的组合点。Plus那个item在我看来是属于一个大模型里面是agents的智能体的一个东西。本身大模型里面智能体，所以你帮我去，比如说一个用email或者帮我定一个旅行用的完成。那robot agent就是这个白酒一段距离的。当你拆解到一个运动员过去拿那个手柄。整个的motion planning这一块，大家看得到的一件事，只要你的plannings是为了碰碰这事儿就ok你的plannings为了了，那这事儿就能明白了吗？呃，我们原来也觉得开放世界的任务难点是比较困难的。但是自从有了GPD four开始的话，其实有各种各样的办法能把这个里面的这种task很好的拿出来。或者是有一个local的知识图谱来相互结合，就可以非常reliable。我们做到90%多以上reliable的程度给100个task，有九十多个task，百分之百的给你分解的完全正确。只有10%分解的时候可能不一定很正确，对大部分人的家庭啊也就可以用了。因为步骤不正确的时候，我们发现机器人自己可以发现这个步骤是不正确，然后回去把这个东西改过来。请教一下您刚才提到的这个拆解的正确率和拆解task。如果在执行一个子任务的时候它出错了，比如说我现在要颠鸡蛋就把水打翻了。这种场景是在你刚才说的10%之内，还是这算是另一回事儿。这个是属于failure recovery，这是我们现在正在做的事情啊，这个还没有包括在这个90%里面。90%是就是说你比如是那个啊简单的recipe啊，比如说那个我今天早上想吃那个煎牛排啊，机器人就说哎呃就是可以把整个事情给break down，就是去冰箱取鸡蛋多少个，在在什么地方？怎么就整个一套系统大概有十几步、20步都是可以百分之百的准确吧。第一个不正确的话，机器人真正真正XQ的时候会发现这个东西本身就不是很容易的。那么就retried Geer一个regeneration还是可以把这个go through的开放场景下面的基于有知识驱动的这一部分其实就不太work。我们没办法实现完全的这个泛化。真正的实验放我认为要解决两大问题。第一个就是要实现AGI对吧？第二就是我们的硬件要足够好，把我们的应用分成两个两个层次。第一个层次呢就是我们的当前的机器人的硬件，有一个AAI的AI的结合就解决工人的问题，可以处理一些有限环境下的有限任务。第二阶段是我们的更好的硬件的本体，甚至有可能已经不再是一个电机驱动的这个方案了。你知道电机有天然的这功率密度和能量密度的这个上限。AGI的状态下，开放场景实际上是处理的是执行结构化任务过程当中的处理异常의状况。比如说啊它的障碍物突然间失败了，失败过程中怎么样去理会处理的过程，通过多次尝试的方式学会这个能力。这样的感知还是基于2D感知的那其实我在操作过程当中，实际上是要解决3D的感受。就最简单的例子，比如说我的这个透明的这个物体，反光的物体，可能需要多个视觉的一些融合的方式来获得。现在是大部分的这个控制要么基于你的视觉感，要么基于你的力觉感知。但是这个传感器并没有大家想象的那么有效控制，模型之间跟那个没有建立那么有效的关系。所以这个也限制了很多算法场景的一些应用。之前的还有一个大的一个挑战，其实就是这个系统的环境。我们并没有构建一个完整的机器人的一个可靠的系统。如果把各种各样的模块的有效的状态起来，能够让他们之间的有效的信息的传传递。那么解决感控融合就是感知和控制之间能不能够变成一个完整的东西，但还是割裂的。比如说我们AI跟AI大脑小脑之间的这个连接传递哪些数据是能够把这些连接起来，形成完整的这个一个系统。当然我们也看到在结构化或半结构环境下的有些任务，我们认为基本具备了这个应用落地的可能性。我觉得还是蛮有意思的。无人驾驶之所以能走的比较快，是因为它的input output sensor or的本身的sensor和actuator都是一个比较standardized固定下的系统。人性机器人或者其他的机器人的控制的维度还是蛮多的，那个sensor都是很稳定的。那么今天的这套系统加的是一个teacher sensor，明天的那套系统有一个新的vision或或者一个infrared sor放的位置也不一样，有的是放在手上，有的放到那个外面的，在什么位置上？P vo的这套系统还是还是更复杂一些。
**《机器人技术全解析：从感知到应用的深度攻略》**

在当今科技飞速发展的时代，机器人技术正逐渐走进我们的生活。然而，要让机器人真正实现广泛应用，还面临着诸多挑战。

多模态感知是机器人发展的关键一环。除了视觉，嗅觉、味觉等感知也至关重要。比如在机器人做饭场景中，仅靠视觉无法全面判断食物状态，还需监测温度等。但目前视觉以外的感知层研究较少，传感器配备情况不明。

执行层的建模困难重重。与真实物理世界接触时，机器人的建模极为复杂。抓取操作时，微小的移动都会导致结果差异巨大，在严格的接触情况下，机器人执行层面还远未成熟。

硬件、算法和传感器是制约机器人发展的重要因素。当前机器人在这些方面成熟度较低，各部分之间的协同也存在问题，如感控融合仍未完善。

AGI和更好的硬件是未来方向。实现AGI并提升硬件性能，才能让机器人更好地处理开放场景下的任务，应对异常状况。

无人驾驶因系统标准化发展较快，而其他机器人控制维度多，传感器不稳定，系统更为复杂。

总之，深入了解机器人技术的各个环节，有助于我们更好地推动其发展，让机器人在未来发挥更大作用。
机器人,多模态感知,执行层,硬件,算法,传感器,AGI,开放场景,感控融合,应用落地
[Q]：机器人做饭时多模态感知为何重要？
[A]：仅靠视觉无法全面判断食物状态，还需监测温度等。
[Q]：执行层建模困难体现在哪？
[A]：与真实物理世界接触时建模复杂，抓取操作移动影响大。
[Q]：当前机器人发展受哪些因素制约？
[A]：硬件、算法、传感器成熟度低，感控融合不完善。
[Q]：未来机器人发展方向是什么？
[A]：实现AGI，提升硬件性能以处理开放场景任务。
[Q]：无人驾驶发展快的原因是什么？
[A]：其input output sensor等系统标准化。
[Q]：其他机器人系统为何复杂？
[A]：控制维度多，传感器不稳定。
[Q]：视觉以外的感知层目前情况如何？
[A]：研究较少，传感器配备不明。
[Q]：机器人执行层面成熟度怎样？
[A]：在严格接触情况下远未成熟。

豆抖大人2025-12-12 22:12:35