东京大学和Alternative Machine的研究人员开发了一种名为Alter3的仿人机器人系统,该系统可以直接将自然语言命令映射到机器人动作。通过利用大型语言模型(LLMs)如GPT-4,Alter3能够执行复杂的任务,如自拍或模仿幽灵。
- 在LLM出现之前,必须手动控制机器人所有的43个轴来模仿动作,这通常需要许多人工精细调整。现在,利用LLM,只需通过自然语言的指令,就可以实现复杂动作控制,无需迭代学习过程。
- 通过语言反馈,Alter3能够根据用户的语言指令调整运动代码,并将改进的动作存储在数据库中,形成有效的身体模式记忆。
- 通过在线平台Prolific招募了107名参与者,对九种不同的动作视频进行评估。结果显示,由GPT-4生成的动作得分显著高于对照组随机生成的动作,表明GPT-4能够准确地将语言表达映射到Alter3的身体上。
- Alter3能够在没有额外训练的情况下执行多种动作,展示了LLM数据集已经包含了动作描述。此外,Alter3还能够模仿鬼魂和动物,并通过面部表情和手势反映对话内容的情绪。该系统可应用于任何类人机器人,只需少量修改。
视频播放器
Alter3 的主要功能
- 自然语言到动作映射:Alter3 能够直接将自然语言命令转换为机器人动作。用户可以通过简单的语言指令控制机器人执行各种任务。
- 基于“代理框架”的动作规划:Alter3 使用GPT-4模型作为后台,通过“代理框架”来规划机器人执行任务的步骤。模型首先充当规划器,确定所需的动作步骤,然后由编码代理生成具体的机器人命令。
- 上下文学习与API适应:GPT-4 利用其上下文学习能力,适应并映射机器人的API命令。通过提供命令列表和使用示例,模型可以将任务步骤转换为API命令,发送给机器人执行。
- 人类反馈支持:Alter3 能够接收人类的反馈并据此调整动作。例如,当用户指示机器人“抬高手臂”时,反馈信息会被另一个GPT-4代理处理,调整相应的代码并更新动作序列。
- 多任务处理:Alter3 可以执行多种复杂任务,如自拍、喝茶、模仿幽灵或蛇等动作,还能在需要精细动作规划的场景中表现出色。
- 情感表达与模仿:GPT-4 的广泛知识库使其能够推断和表达情感。Alter3 能够通过身体动作反映出情感,如尴尬或喜悦,增强了人机互动的真实感。
- Alter3可以通过面部表情和肢体动作表达情感。即使文本中没有明确的情感表达,GPT-4也可以推断出合适的情感并反映在机器人的动作中。
- 示例:当听到一个有趣的故事时,表现出惊讶和愉悦的表情和动作。
- 零样本学习:
- 无需预训练:Alter3无需预训练即可根据语言指令生成新动作,这意味着不需要为每个新动作进行编程或训练。
- 使用现有数据:利用GPT-4的广泛训练数据集,这些数据包含了大量的动作描述,支持机器人生成多样化的动作。
- 广泛的应用场景:除了执行日常任务,Alter3 在需要高级动作规划和情感表达的领域(如娱乐和客户服务)也具有广泛的应用潜力。
Alter3 的技术细节
- 自然语言处理和映射
- 集成大语言模型:使用GPT-4作为核心语言模型,将其集成到Alter3机器人中。
- 语言到动作映射:Alter3 使用GPT-4模型来处理自然语言命令,将其映射到具体的机器人动作。通过大型语言模型,机器人能够理解和执行复杂的语言指令。
- 代理框架
- 描述:采用“代理框架”进行动作规划。框架分为两个阶段:首先是规划阶段,GPT-4确定执行任务所需的步骤;然后是编码阶段,生成具体的API命令。
- 规划器:在第一阶段,GPT-4模型作为规划器,分析自然语言指令,制定详细的动作计划。
- 编码代理:在第二阶段,编码代理负责将动作计划转换为机器人的API命令。
- 动作生成协议:
- 自然语言协议:使用自然语言协议(如Chain of Thought, CoT)生成控制机器人的Python代码,从而实现动作生成。
- 多样性生成:由于GPT-4具有非确定性,即使相同的输入也能生成不同的动作模式,增加了动作生成的多样性。
- 语言反馈系统:
- 即时调整:用户通过语言指令(如“手举高一点”)对动作进行即时调整,机器人根据反馈修改动作代码。
- 动作存储:改进后的动作被存储在JSON数据库中,带有描述性标签(如“举着吉他”),以便未来检索和使用。
- 上下文学习
- 描述:GPT-4 使用上下文学习能力适应机器人的API。通过提供命令列表和示例,模型能够将动作步骤映射到API命令。
- 例子和命令列表:在上下文中包含示例命令和解释,以帮助模型生成准确的API命令。
- 人类反馈和调整
- 描述:支持人类反馈,允许用户微调机器人的动作。反馈通过另一个GPT-4代理处理,调整动作代码并更新执行序列。
- 反馈处理:用户反馈如“抬高手臂”被处理并转化为代码调整,存储在数据库中以供未来使用。
- 情感表达
- 描述:GPT-4 的知识库支持情感推断和表达。Alter3 能够通过身体动作反映情感,如尴尬和喜悦。
- 情感推断:即使在没有明确情感表达的文本中,模型也能推断出合适的情感,并在机器人的物理响应中体现。
- 多任务处理和应用
- 描述:Alter3 能执行多种任务,如自拍、喝茶、模仿幽灵或蛇等动作,展示其在日常任务和复杂场景中的应用潜力。
- 任务示例:模型通过实验测试执行各种任务,如自拍和模仿动作。
- 外部存储与记忆:
- 外部记忆集成:通过语言反馈系统,Alter3能够将动作改进信息存储在外部记忆中,这些记忆在未来生成动作时被引用。
- 身体模式:这种外部记忆有效地充当Alter3的身体模式,使其能够不断学习和改进动作表现。
- 数据和模型训练
- 描述:GPT-4 的训练包括广泛的语言表示和动作描述,支持其在机器人控制中的应用。基础模型的知识库提供了丰富的背景知识,提升了机器人的任务执行能力。
- 基础挑战:尽管模型在高层次规划中表现出色,机器人在执行基本任务(如抓取物体、保持平衡、移动)方面仍面临挑战。
评估与结果
- 动作生成评估:
- 评估方法:使用视频展示九种不同生成动作,参与者通过观看视频对机器人动作的表达能力进行评分。
- 评分标准:采用5分制评分,1分为最差,5分为最好。
- 参与者招募:
- 招募平台:通过Prolific平台招募了107名参与者。
- 参与者任务:参与者观看视频并评估动作的表现力。
- 视频分类:
- 即时手势动作:包括自拍、喝茶、假装成为鬼魂、假装成为蛇等日常和模仿动作。
- 持续动作情景:包括复杂情景,如在电影院吃错别人的爆米花,或在公园跑步时感受古老生存故事的情感场景。
- 对照组设置:
- 随机动作:使用随机生成的动作作为对照组,动作标签由GPT-4生成。
- 对照视频:在参与者观看的视频中,插入三个随机动作对照视频。
- 统计分析:
- Friedman测试:用于比较不同视频评分的显著性差异,结果显示视频评分之间存在显著差异。
- Nemenyi测试:进一步分析显示,对照组视频与其他视频相比,评分差异显著(p值小于或等于0.001)。
- 结果总结:
- 评分结果:GPT-4生成的动作评分显著高于随机动作对照组,表明GPT-4生成的动作在表现力上更具优势。
- 动作多样性:GPT-4能够生成从日常动作到复杂情景的多样化动作,并能够表达情感,如尴尬和快乐。
- 情感表达:通过GPT-4,Alter3能够理解并反映对话内容中的情感,即使情感未明确表达,也能推断并在动作中体现。
主要评估结果总结
通过将GPT-4集成到Alter3机器人中,实现了零样本学习、自发动作生成和语言反馈优化,显著提升了机器人的表现力和自然度。Alter3能够表达情感并生成多样化的动作,展示了大型语言模型在机器人技术中的巨大潜力和广泛应用前景。这一研究不仅为机器人技术的发展提供了新的思路,也为未来更自然、更人性化的人机交互奠定了基础。
结论
- 零样本学习能力:
- 无需预训练:Alter3能够在无需特定编程或训练的情况下,通过GPT-4生成自然且多样化的动作。这表明GPT-4的训练数据集已经包含了丰富的动作描述,支持机器人直接生成复杂的动作。
- 语言反馈优化:
- 即时调整:通过语言反馈系统,用户能够即时调整和改进Alter3的动作。这种反馈机制允许机器人不断学习和优化其动作表现,增强了与人类的互动体验。
- 情感表达:
- 丰富的情感表现:Alter3不仅能够模仿人类的日常动作,还能通过面部表情和肢体动作表达情感。无论是直接表达还是从上下文中推断情感,Alter3都能通过GPT-4准确反映情感状态。
- 广泛应用潜力:
- 普适性:该系统可以应用于任何仿人机器人,只需进行小幅修改即可实现。这种通用性使其在各种机器人应用中具有广泛的潜力。
- 研究发现:
- 显著优势:评估结果表明,通过GPT-4生成的动作在表现力和自然度上显著优于随机生成的动作,展示了大型语言模型在机器人动作生成中的强大能力。
- 复杂场景模拟:Alter3能够生成从简单日常动作到复杂情景模拟的多样化动作,展示了其在机器人控制和人机交互中的广泛应用前景。
一些案例:
“装鬼 “的动作
表达尴尬的感觉
I was enjoying a movie while eating popcorn at the theater when I realized that I was actually eating the popcorn of the person next to me.
我在影院边吃爆米花边欣赏电影时,发现自己其实是在吃旁边人的爆米花。
用手机自拍
“暗投球 “的动作
“扮蛇 “的动作
ALTER3 能否再现故事?
“喝茶 “的动作
“弹吉他 “的动作
Podcastle AI是一个基于 Web 的平台,可让您录制最多 10 名参与者的个人或群组播客,使用直观和 AI 驱动的功能编辑您的音频文件,并以各种格式导出您的播客。