伟景智能董霄剑:具备动态手眼伺服协同能力 晓唯2代人形机器人年底量产
来源:机器人大讲堂 李鑫时间:2024-04-23
伟景智能的目标是在2025年前实现低成本,可量产的人形机器人产品,并利用其硬件本体的技术专利布局与软件控制与算法,在2025年前将人形机器人成本控制在15万元人民币以内。伟景智能认为,人形机器人必备条件包括:自主操作、自学习、真正实用以及连接未来。目前,一些人形机器人试图开发语音交互指令,将大型语言模型(LLMs)和视觉-语言模型(VLMs)作为高级规划器被融入机器人控制系统。然而,直接将它们用于低级控制仍存在许多问题。绝大多数 VLMs 是在静态图像-语言配对上训练的,而机器人任务需要闭环控制的视频理解。如果有一家公司能够提供前端视觉认知方案,实现轻量级端侧计算,并具备实时VLMs处理能力,那么这家公司很有可能改变人形机器人技术的发展方向。伟景智能就是这样一家专注于机器人视觉领域的公司。▍人形机器人的核心在于利用先进的视觉系统提升其自主操作性在过去的一年中,人形机器人视觉技术领域呈现了多方竞争的局面。特斯拉的Optimus采用了8摄像头的纯视觉解决方案,结合Dojo芯片进行图像算法处理,配合其电动汽车上的FSD技术,实现了对不同物体和环境信息的理解和处理。小米的Cyber One则采用了相对成本较低的iToF模组和RGB模组进行视觉定位,尽管这种方式成本较低,但精度较低,无法完成精细化操作。波士顿动力Atlas电液混驱版本和宇树科技的Unitree H1则采用ToF深度相机与激光雷达方案,但这种技术方案通常需要在恒定光源条件下进行。然而,面对室外强光和反光环境,这种方案在一定程度上限制了其综合运动能力。在这一领域,伟景智能采用了一种全新的设计理念。公司CEO董霄剑认为,一个真正具备智能自主操作系统的人形机器人必须具备高度的感知和认知能力。这不仅要求机器人能够理解和处理三维空间信息,还需要其拥有类似于人类的立体视觉系统。目前,伟景智能的第二代人形机器人晓唯搭载了ViEye立体视觉系统。该系统的最大优势在于低成本、可量产、高抗光、高精度,并且具备端侧实时数据处理能力。董霄剑表示,自2016年起,伟景智能一直专注于3D立体视觉技术的开发,并率先开发了线激光+双目立体视觉技术方案,成功应用于工业分拣与码垛等领域。就研发而言,伟景智能的3D立体相机从硬件设计到软件算法均由公司自行研发完成,并拥有以下核心技术优势:优势一:伟景的3D相机单个成像面像素数量可达600万,是ToF技术方案的60万的10倍,为人形机器人的精细化操作提供了广阔的发展空间。未来,晓唯人形机器人将能够通过高精度视觉系统完成如穿针引线的操作。优势二:具备高抗光性,满足人形机器人在各种场景下的作业需求。伟景ViEye立体视觉系统的抗光性达到18万流明,远超传统结构光技术的8万流明。这种高抗光性使得人形机器人可以应用于户外强光场景。未来,结合强化学习和模仿学习技术。晓唯人形机器人将具备在复杂路面行走的能力。优势三:晓唯人形机器人搭载的ViEye立体视觉系统包含头部和胸部两个单元,头部相机具有广视角操作能力,胸部相机则具有长焦操作能力。伟景相机的大景深范围从500-4000mm,远超传统结构光技术的最大安装距离2000mm。这意味着晓唯人形机器人在精细化操作方面具备了先决条件。优势四: ViEye立体视觉系统的核心计算芯片由伟景智能自行研发,无需外部单元介入进行计算。这使得系统能够处理每秒高达5000帧的实时数据,实现零延迟。这一特点在人形机器人的商业应用中至关重要。目前,晓唯人形机器人已实现了在转身过程中移动手臂进行水果采摘的动作,而并非转身动作完成后抬起手臂进行采摘。这一点对手眼伺服能力提出了极高的要求,即便是Figure 01目前也无法完成在运动状态下的手眼伺服联动操作,而伟景是全球唯一一家能够实现高度精细化手眼伺服协同操作的人形机器人企业。▍伟景智能Natural Learning®为人形机器人植入视觉大脑在首届中国人形机器人产业大会上,董霄剑作为演讲嘉宾分享了伟景智能基于先前的应用案例打造的三种类型的认知库,分别是场景认知库、平面视觉认知库和立体数据认知库。这些认知库不仅支持机器人对环境的认知,还为机器人的操作提供了必要的数据支持。通过共享这些认知库,伟景智能的平台能够实现工业级和消费级产品的高效开发。此外,董霄剑还公布了晓唯人形机器人自学习Natural Learning®技术路线,包括语音指令控制、动作规划与学习、文字的学习与理解以及多模态交互几大方向。我们找到了美国Figure 01的技术路线,并与伟景智能Natural Learning®进行了对比发现,Figure 01采用了搭载Open AI Model LLM来驱动神经网络决策产生,神经网络则驱动机器人本体执行。虽然Figure 01具备一定的场景认知的泛化能力,但由于大语言模型目前无法实现人形机器人的本地化部署,因此部分数据需要接入云端,再由云端反馈转化为动作执行命令,这导致了一定响应时间延迟。这也是为什么Figure 01每次对话都需要停顿2-3秒钟的原因。伟景智能Natural Learning®采用了另一种技术路线,该技术路线弱化了云端计算能力,更强调前端的实时计算能力。由于ViEye立体视觉系统没有延迟,因此不需要强大的本地计算来进行动作预测,这在一定程度上减轻了本地化数据的计算负担。你可以将Natural Learning®看成集合了VLMs+LLMs的端侧小模型,而晓唯人形机器人第二代的双相机系统则是多端侧小模型的协同作业,这套技术路线的优势在于由于采用了前端计算,因此在命令的响应速度方面远远领先于Figure 01。早在2019年,伟景智能就设计出了第一代灵巧手原型产品,当时主要依靠电流进行运动控制。第二代灵巧手拥有了更加灵活的自由度设计,并且响应速度大幅提升。到今天,伟景智能推出的第三代灵巧手已经将压力传感器整合其中。与人类手部的匹配度达到90%相似度。董霄剑曾公开表示,人形机器人的关键在于如何解决手眼伺服协同作业能力。与立体视觉技术同样重要的是手部的灵巧操作。正因为如此,伟景智能用了5年时间自研灵巧手的关键核心零部件,并取得了国家技术专利。目前,伟景智能的第三代灵巧手已能够实现拿捏A4纸张,抓握笔写字等功能。而目前主流的灵巧手仅能实现较大且具有辨识度的物体的抓取,如苹果、香蕉、纸团或带有颜色的马克杯等产品。其技术瓶颈在于视觉精度不够,仅依靠算法是无法完成人形机器人的精细化操作。伟景智能的ViEye立体视觉系统此前应用于工业场景,拥有亚毫米级别的精度设计,这从底层上保证人形机器人在精细化场景的操作优势。伟景智能灵巧手背部拥有手眼伺服Mark点,确保在手部运动过程中,能够时刻在眼睛的控制下调整手臂前进的路径与位置。这也是为何伟景智能需要大量精力自研灵巧手硬件的原因。如果仅采用伟景智能立体视觉系统,而使用第三方灵巧手技术方案,是无法实现良好的手眼配合协调控制的。与传统机器人企业不同,伟景智能人形机器人的核心逻辑在于解决其立体视觉系统的高精度、高抗光以及前端免巨量GPU计算能力,同时配合自研的灵巧手,实现了一整套流畅的手眼伺服操作。具备在运动状态下的实时计算与分析能力,在全球范围内仅伟景智能一家企业拥有此项核心技术。伟景智能人形机器人的出发点在于制造真正可以商业落地的低成本、可量产的机器人。在其商业计划中,首批人形机器人将于今年12月量产交付。与预期不同,首批产品并非定位于教育科研领域,而是专为采摘市场量身打造。伟景智能将在农业采摘领域进行运用性落地验证,并在初步验证通过后逐步向其他应用场景拓展。在人形机器人领域,这种清晰且完整的商业闭环链路似乎没有几家企业能够真正做到。几年前,董霄剑曾表示要彻底改写3D立体相机市场格局。如今,伟景智能依靠其特有的线激光+双目立体视觉技术路线,将智能焊接与拆码垛领域的硬件价格降至2万元以下,并提供免费软件使用。3D立体相机市场的格局正在被重新改写。写在最后,笔者脑海中闪现出一个人,田中耕一,这位2002年诺贝尔化学奖获得者既非科班出身,也并非化学世家,而是一位普通的日本职员。因在一次实验中的失误意外发现了生物大分子的质谱分析法而大获成功,被视为“底层小职员的神奇逆袭”。有时候,技术的迭代并非按照线性秩序发展,也并非一定由圈内行业大佬开辟。破局者,往往从另一视角提供足以改变底层逻辑的创新驱动力。这一切又是否会在人形机器人产业发生呢?在人形机器人产业激战正酣的当下,让我们拭目以待。