机器人领域发展现状与面临的挑战及未来方向

豆抖大人2025-12-12 13:43:59

嗯，目前比较缺。从本质上看，我们是希望有一个大一统的模型，就像特斯拉的这个FSD1样。左侧全部是所所有的传感器是或者环境信息的一个输入，本质上还是通过传感器去读。那右侧就是电机的一个个的读书，那input output非常具体，不管你是什么样的一个架构，那最终我希望一个网络把它完完全全的端对端的去实现。那目前在机器人上面，我们只能在一些非常小的任务里面我们可以做到，但把它更多的去泛化，我们发现就没有办法了。从做驾驶领域来看的话，可能就是个数据问题。那在机器人里面到目前没有一个很明确的结论来说，只要我采集到足够的数据，这个事情就没有解决。看看open AP所发布的那个bigger那个事情，那是一个behavior section。那这个behavior selection就让人很迷惑。那到底是从神经网络里面去自动去做behavior selection，还是说我在两个层之间还会有一个链接层出现，让它去做一个behavior selection。我相信可能也许就在不久的将来，也许可能就在今年年底之前，那整个这个解释路线可能就会有一个非常非常明确答案了。是不是就是端对端就能解决机器人里面的所有问题。这个我觉得是目前可能是所有想进入到这个领域的人，可能快速就直接选择一条路。要么就做端对端，要么就专攻其中的某一个点。比如说上次任务规划，或者说就是中间的这一块的规划，运动规划也好，或者说只做最传统的底层的所谓的传传统的控制也都行，反正最终的我们都会把它融入一个更大的网络里面去，都会变成这这这些err的apple里面。呃，我想分享几个点的。第一个就是说端到端它的一个流程。因为大家喜欢端到端，并不是因为呃这个端上的一个网络可能每层都是神经网络，它有自己的职能。希望大家减少对这些任务的一些一些假设。我通过数据的驱动方式能把这个架构训练起来。其实ChatGPT也是猜测或者是是间接论证的。MOD嘛它也是一个mixture of expert专家的网络的衔接在一起，用game for Maximum Maximum需要每个专家发挥了各自技能的一些特特殊的竞争优势。呃，我觉得呃未来感觉呃机器人发展也类似这个OOD的一些一些形式，肯定是要涌现出来的模型本质上是对数据和你所观察到现象的一个压缩。相对来讲,语言这种东西它没法压缩到更低。一维的一个同一个拉尔丹姆毛主席的刻画，就我们目前找到了一个这样的刻画的方式，也不见最好哈。但是至少对于目前我的用词而已，是语言的模型和运动的模型，不一定要求我们就是从底层分析就可以了。我把这个large model model就叫做研的physics。我个人这么看啊，这个拉拉的model对语言逻辑啊，甚至视频这种离散这些东西来讲是没有用的。但是说你要让机器人去执行一个任务，包括与与物理世界相接触这块，我觉得他的帮助是有限的。那么从决策层面上来讲是可以帮助。其实具体的运动来讲，它还是比较大。整体来讲我更倾向于可能MOE的方式在机器人领域会有用，像像PP也是这样。所以说各各种专家的模型，然后通过一个robot agent，呃，可能是未来演绎的一个方向吧。而人其实也是像庞博士刚才说的，大脑小脑分成两部分来做不同的functionality。But neural network可能从结构上也不会是一样的，一个是运动的，一个是抽象的。那个knowledge应该模型里面最有价值的。对于我们机器人来讲,就是如何去有效的挖掘大模型里面的韵蕴含的知识推理及这个能够挖掘事物之间关系的这么一个能力。这个对于我们之前的这个决策感知里面是至关重要的。如果机器人没有这个能力，就意味着我们机器人就没有了自主的。我们如何去挖掘这么一个能可能会考虑跟我们场景相关。那这个机器人就具备了这个场景下的感知能力，实现主动的。我给一个指令，让机器人去帮我去做饭，拍摄人给他指令。但是怎么样去让机器人自己能够去做饭，那就需要外部的环境的感知能力去知道这个当时的时间状态。这个就需要大模型的能。我们认为现在大模型能力是具备这个潜力的。还有一类呢就是跟我们运动控制运动智能相关的部分。那很多运动的运动的产生是无意识的，大家为什么要用基于模型来做？因为我们的确找不到太好的这个数据模型去表达这个东西。现在的这个双足的这个行走跟人的这个生理的这个就是人的运动模型是两回事。我们的确没有办法去找到真正的跟人的行走的这个能匹配的数据模型。这时候我们就可能就会引入数据驱动的这个模型来。就是大家发现这个模型跟原先的基于知识的模型是两回事儿。通过这种仿真环境下的构建啊，或者是真实环境环境，或者来训练不到一部分的这个模型，能不能直接用到这个物理世界里面又是两回事儿。第三个呢，我们就讲到的这个机器的三大能力。第一个能力的移动能力。移动能力的时候是需要通过感知的技术来来和耽误跟感知关系不大，不力觉的反馈或者是自身的这个运动智能来实现的这个控制的平衡。第二个部分就是操作，我一直认为操作的部分呢能够去实现这种的方式，可以把它近似成是作为一个这种刚体运动，或者说我基于我反馈的这种缸体的运动，等于集成它的特殊的这个构型。啊，处理单一任务的时候一定不是效率最好。因为它有太多冗余设计，它要满足太多的环境，它一定是多个不同环境不同任务的平均效率最优。那我加起来的效率最优，这恰好就是我们一个一个解决的问题。这个场景下面就一定要需要我们的模型具有泛化性,而不是完完全全完全要有泛化跟我们的硬件构成的分化。当然了，大模型只是给了我们很多的可能性，在很多很多的问题要去解。第一个问题是什么呢？第一个问题就是成本。在我一个机器人上面放很多的模型，把这个模型串起来，是不是我有一个专用的硬件设备，还是端侧的资金，是不是要考虑到这个运营的成本。到了大脑这部分就要用到更大的模型，没有办法放到本地来跑，可能是你的云端对云端的成本是很高的，我们解决这个成本问题。第二个问题呢就是效率的问题。大家用其他GP都会发现,每一次你的请求对于某一个任务啊，你很少一次成功。可能需要调整你的不同的输入来得到你想要的答案。一些应用当中可能要要去解决的这个问题。很多时候允许都是输入。因为我都不知道每次输入结果好不好玩，要判断它的好坏。第三个问题是大脑端的幻觉的问题。当你的集成人机交互的时候，一定会输或者产生幻觉。但是用户来讲，谭机器人本身呢他就不知道这个事情。你如何去解决信息对齐的问题，确保机器人的执行可靠、有效、安全。这三个挑战机器人在业务过程中肯定是要去思考，给你去解决的。
《机器人领域发展攻略：掌握关键要点，开启智能未来》

在当今科技飞速发展的时代，机器人领域备受瞩目。想要深入了解这个领域，掌握一些关键要点至关重要。

首先，端到端模型是机器人发展的一个重要方向。它致力于通过一个网络将输入与输出完全端对端地实现，在一些小任务中已有所应用，但在泛化方面仍面临挑战。

大模型在机器人领域也有着巨大潜力。它能帮助机器人挖掘蕴含的知识推理能力，提升决策感知水平，例如在场景感知、运动控制等方面都能发挥作用。

运动控制是机器人的关键能力之一。目前，双足行走等运动模型与人类生理运动模型存在差异，数据驱动的模型被引入，但如何在仿真与真实环境中有效训练并应用到物理世界，是需要解决的问题。

机器人还需具备泛化性，以应对不同环境和任务。同时，成本、效率、大脑端幻觉等问题也亟待解决。只有攻克这些挑战，机器人才能在未来更好地服务人类，开启智能生活的新篇章。
机器人领域,端到端模型,大模型,运动控制,泛化性
[Q]：机器人领域目前在任务泛化上存在什么问题？
[A]：目前在机器人上面，只能在一些非常小的任务里做到泛化，更多泛化则无法实现。
[Q]：端到端模型在机器人领域的应用情况如何？
[A]：在机器人上只能在小任务中应用，全面泛化存在困难。
[Q]：大模型对机器人有哪些帮助？
[A]：可帮助挖掘知识推理能力及事物关系，提升决策感知，在场景感知、运动控制等方面有潜力。
[Q]：运动控制在机器人领域面临什么难题？
[A]：双足行走等运动模型与人类生理运动模型不同，难以找到匹配数据模型，数据驱动模型引入后，仿真与真实环境训练及应用到物理世界存在问题。
[Q]：机器人为什么需要具备泛化性？
[A]：要处理多个不同环境不同任务，实现平均效率最优。
[Q]：机器人领域面临哪些挑战？
[A]：成本问题，如模型放置及云端成本；效率问题，请求任务常需调整输入；大脑端幻觉问题，要解决信息对齐确保执行可靠、有效、安全。
[Q]：未来机器人发展可能会朝着什么方向？
[A]：可能会类似OOD形式，涌现模型，采用MOE方式，通过robot agent整合各种专家模型。
[Q]：如何看待机器人领域中模型的价值？
[A]：模型里最有价值的是knowledge，对机器人来说，有效挖掘大模型里蕴含的知识推理及挖掘事物关系的能力至关重要。