国君机械|字节人形机器人:迭代具身大模型,布局TO C场景,GR-2大模型,世界模型能力初露锋芒
字节跳动在机器人领域的探索始于2020年,其人形机器人项目不断迭代升级,尤其在第二代机器人大模型GR2上取得了显著进展。GR2具备世界模型能力,在无序摆放物品的抓取上表现出色。
字节跳动自研了本体硬件,以克服基于第三方硬件进行模型和算法迭代时的限制。目前,GR2基于的硬件本体是一台单臂机器人,末端执行器为夹爪。
字节跳动机器人团队已有约50人,计划在2024年底扩充到上百人,其中AMR(移动机器人)团队人员占比2/3。此外,字节跳动还计划在TO C(面向消费者)场n
总体来看,字节跳动在机器人领域的布局和发展,尤其是在具身智能模型算法上的竞争力,以及面向消费者市场的战略,显示了其在未来科技领域的雄心壮志。探索未来:字节人形机器人,引领TO C场景新潮流
想象一个能理解你的需求、帮你完成日常琐事,甚至陪你聊天解闷的机器人,这样的场景在不久的将来可能不再是科幻电影里的桥段。国君机械最新报道显示,字节跳动正在悄然布局人形机器人领域,通过迭代具身大模型,力图在TO C场景中开辟一片新天地。
技术突破:GR-2大模型,世界模型能力初露锋芒

字节跳动的机器人探索之旅始于2020年,而2024年10月发布的第二代机器人大模型GR-2,无疑是这一旅程中的重要里程碑。GR-2在无序摆放物品的抓取上表现出色,初步具备了世界模型能力。
GR-2的训练过程分为预训练和微调两个阶段。在预训练阶段,GR-2在3800万个互联网视频片段上进行生成式训练,这些视频涵盖了人类在不同场景下的日常活动。这种预训练方式让GR-2具备了学习多种操作任务和在多种环境中泛化的潜能。
经过大规模预训练后,GR-2在机器人轨迹数据上进行微调,能够预测动作轨迹并生成视频。它甚至可以通过输入一帧图片和一句语言指令,预测未来的视频,进而生成相应的动作轨迹。在多任务学习测试中,GR-2能够完成105项不同的桌面任务,平均成功率高达97.7%。
团队壮大:通用具身智能,未来可期

字节跳动对通用具身智能的投入持续加大。截至2024年,字节机器人团队已有约50人,其中AMR(移动机器人)团队人员占比2/3,通用具身智能占比1/3。此外,字节还向英伟达订购了超过10亿美元的GPU,为通用具身智能业务提供充足的算力支持。
硬件储备:自研本体硬件,国内供应链助力

人形机器人软硬件结合紧密,基于第三方硬件进行模型和算法迭代处处掣肘。因此,字节跳动开始自研本体硬件。目前,GR-2基于的硬件本体是一台单臂的机器人,末端执行器是夹爪。公司正在进行双臂机器人的硬件搭建和模型算法研发。
值得一提的是,国内人形机器人供应链的快速进步,有望成为字节跳动强大的工程化能力支撑。在硬件工程化能力上,字节跳动虽然缺乏基因,但国内供应链的快速发展,为公司的机器人研发提供了有力保障。
TO C场景:布局未来,引领潮流
从目前发布的进展和公开资料来看,字节跳动的人形机器人通用具身智能处于研发阶段,暂时没有明确的商业化规划。但随着技术的进步和产业链的成熟,字节跳动具备进行软硬件产品化的可能,且有望在TO C场景不断积累领先优势。
想象未来你的家中可能就会有一个像GR-2这样的机器人,它不仅能帮你完成家务,还能陪伴你度过闲暇时光。这样的未来,已经不再遥远。
挑战与机遇:技术进步,未来可期
当然,人形机器人的研发也面临着诸多挑战。例如,如何让机器人具备更高级的自主学习、规划和决策能力,如何提高机器人的运动控制能力,以及如何设计出更加灵巧的手部动作等。
随着技术的不断进步,这些挑战终将被克服。而字节跳动在人形机器人领域的探索,无疑为整个行业树立了新的标杆。
在这个充满机遇和挑战的时代,字节跳动的人形机器人项目,无疑将成为引领TO C场景新潮流的重要力量。让我们一起期待,这个充满科技魅力的未来,将如何改变我们的生活。