人形机器人拥有极高表达能力,有望成为 AI 的终极载体。
人形机器人拥有极高表达能力,有望成为 AI 的终极载体。一方面,在使用自然语言处理技术之后,人形机器人能够更好地理解和处理人类语言,根据不同的用户偏好提供个性化的表达方式,应对不同的语言场景和需求。另一方面,人形机器人作为具象的实体,能够丰富 AI 和人类的交互方式,除了语音交互,还可以考虑表情、手势等表达方式。当前的表情系统二次开发需要通过编程软件实现,未来自然语言编程有望让普通用户参与开发,更轻松地与机器人互动。
多模态训练模型进步,有望提高机器人训练准确性。当前 GPT-4 已是大型多模态,识别和决策效率提升。当我们的多种感官——视觉、听觉、触觉——都参与信息处理时。多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备,从而提高决策总体的准确率。例如,谷歌机器人在 PaLM-E 的多模态训练中,展现出了更高的识别准确性。
关节能力不能匹配运动规划,是目前的人形机器人技术短板所在。运控模块和运动规划方法,是一个动态匹配的过程,当前 AI 能力提升,运动规划得到进步,关节的灵巧程度则需要提高以匹配运动技巧。当前,具有精确抓握和运动的传统机器人控制方法无法实现人类认为理所当然的通用精细运动控制技能。解决这些问题的一种方法是应用深度强化学习 (deep RL) 技术来训练神经网络来控制机器人的关节,让机器人从反复试验中学习,并在成功完成指定任务后获得奖励,但这种技术可能需要数百万甚至数十亿个样本来学习,因此,虚拟环境模拟可能是机器手实现上亿次训练的必由之路。
自然语言调试+数字孪生,加快机器人训练速度。一方面,自然语言的大模型快速进步,让普通用户有望直接调试底层模型,有望加快训练速度,丰富应用场景。另一方面,英伟达、谷歌、腾讯等公司都在推进虚拟环境调试,能够大幅提高训练的效率,有助于应用端百花齐放。