回首 21 世纪,人类数次以颠覆性技术的极致,给世界以仰望的震撼,智能手机、新能源车都是人类直面严峻现实后的坚定回答,而人形机器人则有望成为下一个颠覆性产品。
21 世纪的第一个十年,从手机到智能手机:智能手机是一部改变了人类生活方式的划时代产品。
1. 智能手机改变了我们的通信方式:传统的手机只能用来打电话和发短信,而智能手机不仅拥有更强大的通讯功能,还能够最终靠社会化媒体、即时通讯软件等与全球各地的人们保持联系。
2. 智能手机成为了我们的娱乐工具:智能手机一机在手,无论是拍照、听音乐还是玩游戏,都可以轻松实现。
3. 智能手机也成为了我们获取信息的利器:我们不但可以通过书籍、报纸、电视等渠道来获取最新的资讯,也能够最终靠智能手机随时随地连接互联网即时获取各种信息。不仅可以浏览新闻、阅读电子书,还能够最终靠搜索引擎查找任何我们感兴趣的内容。这极大地提高了我们获取信息的便捷性和效率。
智能手机达到了全球互联,有效破除了信息壁垒,知识智慧实现全球实时共振,激发和加快了全人类的科技革新。
21 世纪的第二个十年,从燃油车到新能源汽车:人类在发展过程中主要面对的矛盾就是有限资源与无限需求矛盾,而能源问题则是人类社会面临的重大问题之一。
第一次能源革命是需求驱动。人类历史上第一次重大能源技术创新与“火”有关,大概在 40万年前,人类掌握了火的使用,以人工取火代替了自然取火。以“火”的使用为标志事件,人类能够最终靠燃烧木材、秸秆等柴薪来利用储存在有机物中累积的太阳能,自此开启了植物能源时代。植物能源时代对能源的利用仅局限在取暖和烹饪等用途,18 世纪中叶,英国工业革命的兴起加速了人类对能源的需求。传统的生物质能源难以满足工业化生产的需求,因此就需要寻找新的能源来源。
第二次能源革命是能源供给危机驱动。第二次能源革命始于 18世纪的英国,以蒸汽机的发明和应用为标志事件,人类开启了化石能源时代的第一个阶段——煤炭时代。人类对能源的利用此时从地表转向地下,煤炭成为了主要的能源来源。英国煤炭资源丰富,因此成为了工业革命的中心。
其他国家也开始大规模地开采煤炭。蒸汽机的发明使得煤炭等化石能源可以转化为动力,推动了工业革命的发展。
19 世纪下半期,电和内燃机的发明为标志事件,开启了化石能源时代的第二个阶段——石油时代。
内燃机的发明与应用引发了对石油的需求,与煤炭相比,同质量同体积的石油产生的能量是煤炭的 2 倍,且石油相比于煤炭极易气化能轻松实现连续化燃烧。石油资源的开发,尤其是汽车的生产使用,使得液体能源的需求逐步加强,液体能源逐步接替固体煤炭成为主要能源。此后,电力的发明改变了人类利用能源的方式,开发了化石能源的延伸使用,生产出了二次能源。总的来说,第二次能源革命是一个由传统的生物质能源向化石能源转型的过程,这样的一个过程使得工业化生产得到了更好的满足,也推动了人类社会的现代化。
第三次能源革命是环境气候问题驱动。使用了 200 多年的化石能源不仅面临战略性枯竭,也给环境带来了较多的负面影响。随着 20 世纪 70 年代,石油价格暴涨,能源安全和供应稳定性问题成为各国政府和能源公司面临的重要挑战。石油价格的暴涨是由于1973年以色列与埃及、叙利亚等阿拉伯国家发生冲突,石油输出国组织(OPEC)的石油输出国对西方国家实行了石油禁运,导致石油价格大大上涨。这场危机引起了全世界内对能源供应安全性和多元化的关注。在此背景之下,新能源汽车逐渐崭露头角,以其清洁、高效、智能的特点吸引了消费者们的关注,并引领着汽车技术的创新和发展。生命传承生生不息,新能源车的问世是人类应对能源危机的绿色答案。
21 世纪的第三个十年,从机器人到人形机器人:当前,快速的人口老龄化是世界百年未有之大变局,而人形机器人正是最优解。人口老龄化是平均预期寿命不断延长、出生率和死亡率持续走低等多方面因素综合作用的结果,具有普遍性、必然性。
从人口老龄化的进程看,自 19 世纪 60 年代法国最早步入老龄化以来,发达国家一直领跑老龄化进程。20 世纪六七十年代以来,发达国家已全部进入老龄化行列,一些发展中国家也陆续走向人口老龄化。目前,除非洲国家以外的几乎所有国家,都在经历老龄化的过程。欧洲是人口老龄化形势最为严峻的地区,预测显示,2050 年欧盟 65 岁及以上人口比例将达到 28.5%,其中,意大利和德国将上升至 33.8%和 29.4%,法国为 25.6%。在亚洲,日本和韩国的老龄化问题也日趋严重。根据联合国预测,到 2099 年,全球 192 个国家和地区的人口结构都将变成老年型。人口老龄化给很多国家的经济社会持续健康发展带来极大影响,引发财政失衡、劳动力短缺等问题,一些国家的高福利制度也受到考验。
我国自1999年进入人口老龄化社会以来,老年人口的数量和人口老龄化的程度一直在加快速度进行发展,“七普”多个方面数据显示,我国 60 岁以上人口 2.64 亿,占 18.7%,其中 65 岁以上人口 1.9 亿,占13.5%。预计到 2048 年前后将超越发达国家人口老龄化的中等水准,跨入全球人口老龄化水平最高的国家行列。从老年人口的特征看,我国人口老龄化有与其他几个国家共性的趋势,如家庭小型化、高龄少子化等;也有许多独特性,如老年人口基数大、在全球占比高,人口老龄化的速度快、区域不均衡,高龄老人和失能老人多,空巢化和独居化加剧,等等。作为世界上老年人口最多的国家,我国积极应对人口老龄化工作具备极其重大意义,不仅必然的联系我国自身的改革发展稳定大局,也是解决全球老龄问题的关键,事关人类发展。
我们又一次站在了人类历史发展的重要节点上。面对人口老龄化难题,结合当前最前沿的 AI、通讯、硬件等技术,高智能化的人形机器人能成为一种有效的辅助工具,来帮助照料、陪伴老年人以及补充劳动力缺口等等,这是人形机器人问世的现实意义。
人形机器人是跨时代的产品,有望开启下一个十年产业大周期。从全世界看,人形机器人已有商业应用场景预期落地,例如巡逻、物流仓储;商业化进程领先的人形机器人产品则有 EVE 和Digit。在政策、资本和技术多维度赋能下,人形机器人市场的潜力有望被加速释放。未来的商业应用场景有望渗透进入服务业、制造业等领域。马斯克曾表示其设计特斯拉机器人的远大目标是让其服务于千家万户比如做饭、修剪草坪、照顾老人等。目前较有潜力的人形机器人发展趋势主要面向制造业、航天探索、生活服务业、高校科研等,预计2025年人形机器人将有望实现制造业场景应用的突破,小批量应用于电子、汽车等生产制造环境。根据 2023 年 5 月 GGII 发布的报告预测,预计到 2026 年全球人形机器人在服务机器人中的渗透率有望达到 3.5%,市场规模超 20亿美元,到 2030 年全球市场规模有望突破 200 亿美元。参考中国服务机器人市场约占全球市场25%的数值测算,2030 年中国人形机器人市场规模将达 50 亿美元。
长期看,人形机器人或可达到数十亿量级的规模。2024 年 1 月,马斯克在社会化媒体上,同意了AI研究实验室 Midjourney 创始人戴维·霍尔茨的预测。霍尔茨曾预测,到 2040 年代,地球上将有 10 亿个人形机器人,到 2060 年代,整个太阳系将有 1000 亿个(其中大部分是外星)机器人。2023 年 11 月,Figure 创始人 Brett Adcock 曾在访谈中表示,在接下来的几十年里,我们真正面临的挑战将是如何扩大人形机器人的生产规模,以及如何将足够数量的人形机器人供应到市场。长久来看,每个人、每个家庭都会想要一个人形机器人,就像现在的汽车或手机一样。并且在劳动力市场上也会有数十亿个人形机器人,去做那些对人类来说危险、单调和乏味的工作。
人形机器人也将应用于航空事业,例如在太空中建立人类居住点、照看老人等各类工作场景。如果给我们足够长的时间去进行大规模制造,我们大家可以制造出数十亿个人形机器人。
2024年,我们迎来人形机器人商业化元年。人形机器人是人类科技的又一次极限挑战,也是人类未来文明走向的又一次探索。
从销量数据看,全球智能手机销量自 2009 年开始一路上涨,到 2018 年见顶,市场趋于饱和。而全球新能源汽车销量自 2020 年开始激增,电池单位体积内的包含的能量的改进带来电车续航能力的提升功不可没,现新能源汽车销量仍处在上升区间。
正如苹果公司之于智能手机,特斯拉之于新能源车,人形机器人时代的伟大企业正呱呱落地。
海外看,特斯拉人形机器人进展迅速,在两年不到的时间内实现了快速迭代,完成了开发平台建造、Optimus 产品亮相以及电机扭矩控制、环境探测与记忆、双手复杂任务等能力的实现。
2021年首届特斯拉AI DAY上其首席执行官马斯克首次公布特斯拉机器人Tesla Optimus概念图。
2022 年特斯拉 AI DAY 上特斯拉公布了 Optimus 原型机的首秀,实现了自主行走,转身,挥手等动作。 2023 年 5 月的股东大会提到特斯拉自研超算 Dojo 为 Optimus 提供算力支持,可加快训练速度并降低训练成本,加快人形机器人的产业化落地。截至 2023 年 8 月,至少有五个特斯拉Optimus 机器人原型已经建成并能够行走,使用的电机、控制器和电子设备均由特斯拉设计和制造。马斯克预计 Optimus 将大规模量产至“百万”量级,预计其单台成本或将低于 2 万美元。
英伟达下场开发自有大模型,成立 GEAR:打造虚拟与现实世界中的全能智能体。2024 年 2 月23 日,英伟达成立新的研究部门——“GEAR”,全称为通用具身智能体研究(Generalist Embodied Agent Research)。这个新部门由 AI 高级研究科学家, AI 代理计划的负责人 jim fan和 Yuke Zhu 教授领导。2024 年将是机器人技术之年、游戏 AI 之年以及机器人模拟技术之年。英伟达坚信,在未来,每一个能够移动的机器都将实现自主化,机器人和模拟智能体将会像 iPhone一样无所不在。GEAR 研究团队专注于四大关键领域:
1. 多模态基础模型:开发基于大规模互联网数据源训练的 LLMs(大型语言模型),用于规划与推理,视觉-语言模型以及世界模型,旨在打通不同模态信息间的壁垒;2. 通用型机器人研究:研发能适应复杂环境、实现稳健移动与灵巧操作的机器人模型与系统,以提升其在各类实际场景下的普适性与效能
3. 虚拟世界中的基础智能体:创建能够在多种游戏与模拟环境中自主探索并持续自我提升能力的大型动作模型,为虚拟世界的智能交互设定新标准
4. 模拟与合成数据技术:构建大规模学习所需的仿真基础设施及合成数据流水线,为智能体的学习过程提供有力支持。
美国人形机器人初创公司 Figure AI 于今年 2 月 29 日宣布,获得了来自微软、英伟达、OpenAI以及亚马逊创始人贝佐斯等投资人约 6.75 亿美元的新一轮融资。这是该公司继去年上半年获得首轮 7000 万美元外部融资之后宣布的最新融资动态,这也使得该公司的估值达到 26 亿美元左右。
Figure AI 成立于 2022 年,该公司已开发了一款名为 Figure 01 的通用机器人,其外观和动作与人类相似,目标是能够用来执行替代人类的危险或者无聊的工作,例如在制造、运输和物流、仓储和零售等行业。这些领域被认为是“劳动力短缺最为严重的领域”。
Figure AI 还表示,将与 OpenAI 合作,为人形机器人开发下一代人工智能模型,最终目标是让Figure 01 能够自主执行“日常任务”。而要实现这一目标,需要开发更强大的人工智能系统。
此外,Figure AI 将使用微软的 Azure 云服务进行AI基础设施、培训和存储等方面的部署。
根据今年 2 月 27 号 Figure AI 发布的一段视频,Figure 01 通过绳索连接,用两条腿行走,它的手有五根手指,可以执行类似拿起一个塑料板条箱的任务,然后再走几步,将箱子放在传送带上。
今年 1 月 18 日,Figure AI 曾公布,将把 Figure 01 送入宝马位于美国南卡罗莱纳州的斯巴坦堡工厂做试点“实习”,主要代替人类工作者从事一些较危险的任务。
1X Technologies 成立于 2014 年,是一家位于挪威的专注于开发具有高度灵活性和可扩展性的人形机器人制造商,其主要有两款人形机器人产品:EVE 和 NEO。
EVE 是 1X 的旗舰产品,已达成商业化,用于安保。2020 年,1X 发布了 EVE 轮式人形机器人,身高 186 厘米,体重 86 千克,最高时速为 14.4 公里每小时,拥有 15 千克承载及 6 小时的续航能力。EVE 配备摄像头和传感器,可以感知周围环境并与之互动。EVE 的移动性、灵巧性和平衡性使其能够驾驭复杂的环境并有效地操纵物体,主要使用在于物流、零售和守卫巡逻领域。2022 年,1X 首次达成商业合作,签署了至少 140 台 EVE 机器人的分销合同,为美国商业场所提供安保服务;而在公司的官方网站上显示,其还为医院等机构提供了约 250 EVE 台机器人,用于商业建筑的夜间警卫。
NEO 为公司新一代产品,还在研发中,特点为轻量化和无齿轮设计。根据 1X 官网,NEO 身高167 厘米,体重 30 千克,步行速度为 4 公里每小时,跑步速度为 12 公里每小时,拥有 20kg 的承载能力及 2-4 小时的续航能力。NEO 将采用“无齿轮”设计理念,采用自研的无齿轮电机,大幅度的降低整机重量,提高敏捷性。作为通用人形机器人,NEO 能处理物流、制造、操作机械等工业任务,同时提供清洁、整理家务以及日常陪伴等生活服务。
1X 获 OpenAI 融资支持,达成合作推动双向赋能。2023 年 3 月,1X 获得了一轮由 OpenAI 创业基金领投的 2350 万美元融资,成为了 OpenAI 投资的第一家硬件公司。同时,双方将在 AI 技术与机器人双向融合方面达成合作,一方面,1X 的机器人为 OpenAI 的 AI 系统提供了绝佳的物理测试环境,从而增强其泛化能力和鲁棒性;另一方面,OpenAI的技术将全方面提升机器人的智能程度,通过大模型的应用,有望创造出真正的“Robot GPT”,使 1X机器人的学习理解能力更上一个台阶。
2.2 国产人形机器人也正迎来商业奇点2024年政府工作报告提出“加快发展新质生产力”,全国两会特别节目《中国向新而行》走进相关公司,报道人形机器人成发展新质生产力热门领域。人形机器人具备 AI+高端制造双属性,有望开拓高端制造新模式、新业态,提升我们国家科技和制造总实力。长久来看,在我国人口红利减退、劳动力成本上升、各行业加速推进人工替代的时代背景下,人形机器人必定不会仅局限于一个特定领域,而是应用于制造业、社会服务、家庭服务、养老等的众多场景,相比传统机器人具备对综合性任务的兼容度。
2023 年国内蓝图开启,人形机器人有望成为颠覆性产品。2023 年 11 月 2 日,工信部印发《人形机器人创新发展指导意见》,精确指出:人形机器人集成人工智能、高端制造、新材料等先进的技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业高质量发展格局。
技术可复用,华为、比亚迪、宁德时代、小鹏等纷纷布局,2023年国内车企入局机器人趋势渐显。
2023 年 10 月 24 日,小鹏发布了首款人形机器 PX5。何小鹏认为:无人驾驶本质上是机器人科学,智能汽车公司最终也会和机器人公司在技术、产品、生态等等方面融合。小鹏现在做的,就是首先将机器人感知、交互系统,同小鹏汽车已经积累的 XNGP、XOS 拉通,在底层的操作系统、感知能力等实现某些特定的程度的核心技术复用。
作为新兴起的产业的战略领导者和门户看守者,国内人形机器人企业正在茁壮成长,未来或出现苹果、特斯拉这般带动整条产业链一同成长的有突出贡献的公司,中国也正迎来国产人形机器人的商业奇点。
优必选科技成立于 2012年 3 月,总部在深圳,从伺服舵机研发起步,逐步推出了消费级人形机器人、教育智能编程机器人、商用服务机器人、智能巡检机器人等产品。2023 年 12 月 29 日,优必选在香港交易所主板挂牌上市,成为中国“人形机器人第一股”。
优必选是国内最早开始研究人形机器人的企业之一,于 2016 年开始研发人形机器人 Walker 系列,2018 年成功推出第一代大型双足仿人服务机器人 Walker,成为中国首家实现人形机器人商业化的企业。
随后,该产品经历了几次重要的技术迭代,在 2019 年推出第二代 Walker,并在春节晚会上进行了表演。2021 年推出了 Walker X,该机器人身高 130cm,体重 63kg,拥有 41 个高性能伺服关节构成的灵巧四肢,并搭载了多维力觉、多目立体视觉、全向听觉和惯性、测距等全方位的感知系统,走路的速度提升到 3km/h。拥有复杂地形自适应平稳快速行走、动态足腿控制自平衡抗干扰、自主操作家电、全身柔顺控制、U-SLAM 视觉导航、多模态情感交互、智能家居控制 6 大特性。
优必选伺服驱动器技术领先。优必选成功开发了机器人操作系统应用框架(ROSA),是全球少数完成小扭矩到大扭矩(扭矩从 0.2N·m 到 200N·m)伺服驱动器批量生产的公司之一。
傅利叶智能成立于 15 年,总部在上海张江机器人谷,是国内康复医疗机器人领域的领军企业,迄今为止已经成功推出了 30 多个系列产品,并服务于全球 2000 多家医疗机构。
傅里叶智能早期专注于医疗康复外骨骼机器人,并实现了规模化应用,同时将其在医疗康复机器人取得的商业成果与技术积累转向通用人形机器人。公司在 2019 年启动通用人形机器人项目,2023 年 7 月发布首款通用双足机器人产品 GR-1,并于 9 月开启预售,商业化进展快速。
GR-1 身高 165cm,体重 55kg,全身自由度 54 个,采用一体化自研关节模组作为执行器,以及直腿行走方案,模拟人类直膝行走的自然步态,其步速可达 5km/h,具备快速行走、敏捷避障、稳健上下坡、抗冲击干扰等功能,预计将应用于在工业、康复、居家、科研等多种应用场景。
智元机器人成立于 2023 年 2 月,创始团队包括华为“天才少年”稚晖君、彭志辉等业界资深人士,拥有较强的技术背景和产业资源。创立仅仅半年,智元机器人就于 2023 年 8 月发布了人形机器人远征 A1,A1 身高 175cm,体重 55kg,全身 49+个自由度,步行速度可达 7km/h,整机承重 80kg,单臂最大负载 5kg。膝盖采用反关节设计,膝盖向后弯曲能拥有更大的空间,以应对更多的任务场景。
A1 上搭载的 Power Flow 关节电机为自研开发,使用了准直驱关节方案,实现了低齿槽转矩设计,搭配 10 速比以内的高力矩透明度行星减速器、共扼同轴双编码器、一体液冷循环散热系统和自研的矢量控制驱动器,峰值扭矩超过 350N·M,而重量仅为 1.6kg。搭载 RGBD 相机、激光雷达,IMU 以及麦克风阵列。灵巧手指尖集成了基于视觉的指间传感器,可以分辨做物体的颜色、形状甚至材质,并且基于算法能轻松实现近似压力传感器的效果。同时远征 A1 搭载了TeraFlops 的高算力芯片,具备多模态感知、少样本学习、任务闭环等能力。
远征 A1 预计将于 24 年实现商业化落地,售价将控制在 20 万元以内,将首先应用于 3C 制造,汽车制造等领域,随后逐步走向家庭,协助工人、科研人员和共同生活的亲属完成各种任务。
伴随全球和国产人形机器人的亮相,全球共振下人形机器人的商业奇点已然来临。
国内顶层设计明确发展目标,2025 年实现整机批量生产,2027 年要形成安全可靠的产业链供应链体系。工信部印发《人形机器人创新发展指导意见》精确指出发展目标:1)到 2025 年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,确保核心部组件安全有效供给。整机产品达到国际领先水平,并实现批量生产,在特种、制造、民生服务等场景得到示范应用,探索形成有效的治理机制和手段。培育 2-3 家有全球影响力的生态型企业和一批专精特新中小企业,打造 2-3 个产业高质量发展集聚区,孕育开拓一批新业务、新模式、新业态。
2)到 2027 年,人形机器人技术创造新兴事物的能力明显提升,形成安全可靠的产业链供应链体系,构建具有国际竞争力的产业生态,总实力达到世界领先水平。产业加速实现规模化发展,应用场景更丰富,相关这类的产品深度融入实体经济,成为重要的经济稳步的增长新引擎。
软件决定人形机器人高度,算法需与硬件匹配。人形机器人本质是 AI 系统落地物理世界的最佳载体,算法是核心,需与硬件匹配。机器人的输出包含了虚拟与物理两种能力。虽然人形机器人从本体硬件上看,存在抗压硬度与灵敏度不足的问题,但更核心问题就在于是算法对运动能力的控制,包括本体平衡、行走的步态、手部抓取等规划与控制。这需要成熟的感知系统基础、强大的算法分解任务和规划动作、大模型不断仿真训练以及超强的算力支撑,同时要求算法与硬件相匹配。
硬件方面看,人形机器人产业链最重要的包含上游的核心零部件,例如无框力矩电机、空心杯电机、传感器、专用芯片等;中游为机器人本体制造,包括设计、制造、测试三大环节;下游为人形机器人应用领域,包括工业制造、仓储物流、医疗服务、商业服务、家庭使用等。
根据 Tesla AI Day 的预测数据,以特斯拉 Optimus 为例,2023 年人形机器人核心零部件价值量排名前三的是无框力矩电机、减速器和力传感器; 2030 年无框力矩电机价值量占比下降,力传感器、减速器价值量占比上升,且力传感器将超过减速器,排名第二,三者合计占比仍超过 50%。
从单机价值量占比来看,无框力矩电机、减速器和力传感器价值量占比较高;从降本空间来看,空心杯电机、无框力矩电机等降本空间较大;而从国产替代空间来看,行星滚柱丝杠、空心杯电机、惯导 imu 等国产化率较低,国产替代空间大。
高频政策强调下人形机器人发展有望加速,技术升级、产品发布及产业链验证有望持续出现,机器换人和国产替代趋势下的机器人产业链机遇值得期待。从细分零部件来看,人形机器人执行器关键零部件如丝杠、减速器、电机等高端领域的产品国产化率较低,特别是行星滚柱丝杠、空心杯电机、六维力矩传感器等产品在下游市场规模不算太大的背景下,此前国内大规模布局的企业较少,规模化效应不足。面对 2030 年全球上千亿元的人形机器人大赛道,无论公司体量几何,一旦抓住机遇,其市值必将乘风而起,得到巨大提升。
人形机器人是软硬件能力高集成的实体,商业化的核心突破点在于“AI 大脑”。可以说,当前的AI 大脑在逻辑思维和行为智慧决策层面还需要一段成长空间,其驱动力特别大程度上来自于算法的升级与高水平的智能化。
具身智能是人形机器人想要实现的最终方向。具身智能是指一种智能系统或机器可以通过感知和交互与环境(物理世界)产生实时互动的能力。具身智能包括三个模块:具身 感 知(Perception)、具身想象(Imagination)和具身执行(Execution),AI+机器人正是“具身智能”当前的落点。在机器人领域,有一个“莫拉维克悖论”——人类所独有的高阶智慧能力只需要非常少的计算能力,但无意识的技能和直觉(如辨识人脸、举起铅笔、在房间内走动、转笔等能力)却需要极大的运算能力,即越简单的事情越难,越难的事情越简单。具身智能机器人未来要能够像人一样与环境交互、感知、决策、达成目标,其感知层和认知层的能力是非常高的。显然,当下的人形机器人距离这一状态还有非常巨大的差距。人形机器人传感器数量、品类、执行机构复杂程度远高于工业机器人,对控制器实时算力、集成度要求极高。
大模型为人形机器人的发展带来了新的突破。以往由于算法模型的局限,机器人难以实现通用化能力,只可以通过对于某一个特定领域训练对应的基础模型,达到能够很好的满足特定用途的机器人 AI 算法,比如工厂车间大量采用的机器人臂、家用扫地机器人等。软件层面的局限性限制了机器人的应用场景狭窄、可通用性较差,无法充分的发挥硬件层面的性能。而大模型的出现,补全了让机器人能力实现跃升的技术基础。大模型的向量应用提供了大脑给机器人,使机器人具备更高的事物解决能力。大模型的 Chat 应用把自然语言理解提供给了机器人,机器人首次可以用接近人的语言水平,和真实人类聊天,进行基于自然语言的互动。此外,大模型的编程辅助可以肉眼可见的减少软件工程师的工作量,产出软件的成本会逐年下降。
大模型的泛化能力让研究者看到人形通用机器人的曙光。以往的 AI 模型训练完成后,就只能用于其被设计出来的场景中,难以进行拓展,没办法实现通用性。而大模型具备强大的泛化能力,让人形机器人离通用这一目标更进一步。泛化(Generalization)能够理解为一种迁移学习的能力,把从过去的经验中学习到的表示、知识和策略应用到新的领域。人类就具有“举一反三”的能力,学习一个新概念后立即就能理解它在其他情况下的相关用法。以往的 AI 泛化能力很低,应用场景比较局限,泛化能力的出现让大模型能够在没有被训练过的场景中也能表现出色,是 AI 实现通用性的基础。人形机器人所面临的应用场景与人类的日常生活接近,需要面对多种多样、不重复、没见过的任务,模型的泛化能力就成为了其能否真正的完成通用的核心要素。
多模态数据包含更多信息,端到端的算法训练框架提升模型泛化能力。图像、视频等多模态的数据拥有着比文字要多许多的信息,采用多模态数据的大模型有助于实现更高细粒度的语义理解、对话意图识别以及更精确的情感分析。综合使用多种数据模式的信息,可以明显提升模型的性能。
因此,端到端的训练方式会在机器人模型领域有更多优势。传统的 AI 模型训练需要经历对原始数据的特征工程或者数据处理阶段,而端到端训练是指直接以原始数据作为输入,输出最终结果的方法。端到端的训练框架通过缩减人工预处理和后续处理,尽可能使模型从原始的多模态数据输入到最终输出,给模型更多能够准确的通过数据自动调节的空间,增加模型的整体契合度,提升其泛化能力。特斯拉的 FSD 算法就是纯端到端的无人驾驶算法,并将这样的训练思路也延续到了其人形机器人 Optimus 上,特斯拉表示 Optimus 的神经网络训练是“完全端到端的”,就可以实现视频信号输入,控制信号输出。
Figure 01 和 OpenAI 结合,人形机器人和人类自然交流曙光初现。3 月 13 日,Figure 发布了一条旗下最新机器人产品 Figure 01 的演示视频,视频中,工作人员向机器人询问“我能吃点东西吗”,机器人迟疑了几秒,然后熟练地将苹果递给了工作人员。除此之外,Figure 01 还充分展示了和人类以及环境交互的能力。它会说会看,还能给人类递食物、捡垃圾、收拾碗筷等。视频本身没有经过任何倍速,就已达到了比较流畅的机器人演示效果。Figure 01 借助了 OpenAI 的模型能力,为它提供高级的视觉和语言智能,也让人们看到了未来人形机器人和人类自然交流的曙光。
OpenAI 为 Figure 01 提供关键的语言识别、计划和任务执行能力。Figure01 的关键是软件,而软件中让人惊艳的能力又主要来自于 OpenAI。Figure AI 用机器人摄像头采集的视频信息,加上麦克风捕获的语音中的文本转录到由 OpenAI 提供的多模态大模型中,OpenAI 的大模型作为大脑,提供视觉推理和语言理解(其中可能包括 Sora 和 GPT-4 的能力);Figure01 神经网络作为小脑,根据 OpenAI 的大模型的判断做出一系列快速、低级、灵巧的机器人动作。
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
人工智能 Ai产业 Ai芯片 智能家居 智能音箱 智能语音 智能家电 智能照明 智能马桶 智能终端 智能锁 智能手机 可穿戴设备 半导体 芯片产业 第三代半导体 蓝牙 晶圆 功率半导体 5G GA射频 IGBT SIC GA SIC GAN 分立器件 化合物 晶圆 封装封测 显示器 LED OLED LED封装 LED芯片 LED照明 柔性折叠屏 电子元器件 光电子 消费电子 电子FPC 电路板 集成电路 元宇宙 区块链 NFT数字收藏品 虚拟货币 比特币 数字货币 资产管理 保险行业 保险科技 财产保险返回搜狐,查看更加多