机器之心发布

AI 圈最近又热了一个词:Loop Engineering。

它原本出现在 AI Agent 语境里,讲的是一件很直接的事:别再只盯着单次 prompt,而要设计一套能持续运行的闭环系统。系统接任务、调工具、看结果、发现问题、再修正,直到目标被推进完成。换句话说,AI 工程的重心正在从 prompt-centric 转向 workflow-centric。

放到机器人里,这个问题会被进一步放大。软件里的 loop 面对的是代码、接口、日志和工具调用;机器人里的 loop 面对的是真实世界:视觉误差、动作控制、身体反馈、环境变化,以及随时可能发生的失败。

这也是 Loop Engineering 之所以重要的原因:真正可扩展的智能,不是一次性给出答案,而是在反馈中不断逼近正确结果。

人类本来就是最成熟的闭环系统



人类完成一个动作,本身就是持续闭环。

眼睛锁定目标,大脑结合上下文形成意图,神经系统把意图下发到肌肉,肌肉开始执行;与此同时,视觉、本体感觉、触觉和误差信号持续回流,帮助我们实时修正轨迹、力度和姿态。

也就是说,人类始终在「感知 — 决策 — 执行 — 反馈 — 修正」的环路里和世界打交道。

这也解释了为什么具身智能正在争抢 ego-centric、human-centric 数据。真机数据贵,机器人采集慢,真实世界交互复杂;相比之下,人类第一视角数据更容易规模化,也更接近真实任务场景。

但今天大多数 human-centric 数据,记录的仍然主要是「人做了什么」。对真正的闭环智能来说,更关键的是:人为什么这样做?准备怎么做?做到哪一步?又如何根据反馈修正?

这正是一家名为脸谱心智的初创公司试图切入的位置

从世界模型架构,到数据范式

脸谱心智 Facemind 由双 95 后博士陆弘远及韦怡然创立,早期从端侧全模态模型切入,随后将重心转向更底层的世界模型研究。

他们最近在世界模型方向做了一次架构创新,发布了 Looped World Models。

论文链接:https://arxiv.org/abs/2606.18208

据其介绍,这是世界首个基于 loop transformer 的世界模型。它的核心思路,是通过参数共享的 transformer block,对 latent state 进行迭代式 refinement,让模型在内部多轮滚动、修正,逼近更稳定的状态理解。



这相当于把 loop 引入世界模型架构层面:模型不是一次性理解环境,而是在隐藏状态中反复更新对环境和动力学的判断。

LoopWM 在 ego-centric、human-centric 数据上体现出非常强的 data efficiency 和 performance。

但这也带来了一个更进一步的问题:数据侧还有没有可能继续升级?

今天大多数 Ego 数据,仍然主要记录人看到了什么、做了什么。它能覆盖大量真实场景,也能提供丰富的人类操作样本,但它对「动作为什么这样发生」这件事,记录得还不够完整。

一个动作并不是从画面直接跳到结果。它中间还包括目标锁定、动作准备、意图形成、肌肉执行、反馈感知和实时修正。如果这些过程没有被记录下来,模型学到的就更接近动作结果或行为轨迹;如果这些过程能被同步采集、对齐并结构化,模型才有机会学习动作背后的闭环策略。

于是,问题从模型架构转向了数据范式:在现有 ego-centric、human-centric 数据之外,能不能进一步采到更优质、更闭环的操作数据?

脸谱心智给出的答案,就是接下来要讲的这套新的数据范式。

数据范式 Ego-NeuroLoop:把人类闭环变成训练资产

这套数据范式,叫 Ego-NeuroLoop。

它要采的不只是人手最后做了什么动作,而是一组围绕人类操作过程展开的多模态闭环数据。

具体来说,数据使用 world camera 捕捉人与环境交互的视觉上下文,记录环境里有什么、物体在哪里、动作发生在什么场景中;使用 gaze 捕捉人的视线和注意力落点,记录目标是如何被发现、锁定和持续关注的;用 EEG 捕捉与动作意图、状态切换、误差感知相关的神经层信号,帮助判断人什么时候准备动作、什么时候意识到偏差;最后用 sEMG 捕捉肌肉激活和发力变化。

普通 egocentric data 主要记录「人看到了什么、手做了什么、任务有没有完成」。Ego-NeuroLoop 则进一步把这些信号放到同一条时间轴上,把动作拆成一条连续的闭环链路:视觉告诉系统世界状态,视线告诉系统目标在哪里,EEG 提供注意力,意图和状态变化线索,sEMG 提供执行和发力线索,多模态反馈共同解释人如何在操作中不断修正。

如果说普通第一视角视频是在录一部「动作电影」,Ego-NeuroLoop 更像是在记录一套人类闭环控制系统的运行日志。它真正想变成训练资产的,是人类在真实操作中如何把事情一步步做对或者做错修正的过程数据。



数据采集 NeuroMatrix:低成本采下关键闭环信号

第一层是数据采集装置 NeuroMatrix,负责把视觉、视线、EEG、sEMG 等多模态信号采下来。NeuroMatrix 的核心设计逻辑,是先用高精度版本采集 EEG、sEMG 数据训练基座模型,建立人类动作意图、神经信号和肌肉执行之间的对应关系。



有了这张「人类闭环」的信号地图,系统就能进一步找到与手臂、手指动作高度相关的脑区信号、头皮电极通道,以及相关肌肉区域。随后,量产硬件设计围绕关键位置收缩:减少电极数量,压缩传感器点位,把采集装置做成更低成本、更可部署的形态。

这一步解决的是采集半径和采集成本问题。它把原本高门槛,价值数十万的人类闭环采集能力,推向数千元级目标区间,也让过去只有少数实验室和大团队才能负担的数据生产能力,变得更可扩展、更高频、更贴近真实世界。

数据增强 NeuroBooster:神经信号的 VLM

第二层是多模态基座模型 NeuroBooster。它可以理解为「神经信号的 VLM」。VLM 解决图像和文本之间的对齐问题,NeuroBooster 解决视觉、视线、EEG、sEMG 之间的对齐、配对、映射和增强重建问题。

NeuroMatrix 把多模态信号采上来之后,下一步进入 NeuroBooster。

如果说 VLM 把图像和文本映射到统一表征空间里,让模型理解「一张图对应什么语义」,那么 NeuroBooster 要做的,就是把视觉、视线、EEG、sEMG 映射到统一闭环表征空间里,让模型理解一个动作如何从目标、意图、执行到反馈修正一步步生成。

一个动作发生时,视觉里出现了什么目标,目光落在哪里,EEG 何时出现动作准备或状态切换,sEMG 又如何对应到手臂、手指的肌肉激活。NeuroBooster 通过多模态配对映射,把这些信号组织成一组可学习的闭环样本。

它的训练路径可以概括为三步:首先,基于 高精度 NeuroMatrix 前期形成的高精度信号地图,学习不同模态之间的时间对齐关系和语义对应关系;其次,围绕手臂、手指动作,建立脑区信号、头皮电极通道、肌肉区域和视觉目标区域之间的配对关系;最后,对低成本、低信噪比、多模态不同步的数据进行增强重建,把粗糙采集结果转成可被模型消费的 Ego-NeuroLoop 数据。

这一步很关键,因为低成本设备天然会带来噪声。EEG 可能受到电极阻抗、接触质量、头动伪迹影响;sEMG 可能受到佩戴位置偏移、肌肉串扰和动作噪声影响;视觉数据可能出现遮挡、模糊和视角变化;gaze 数据也可能漂移或短时丢失。

NeuroBooster 的价值,就在于利用多模态之间的互补关系做增强重建:当 EEG 信号较弱时,sEMG 和 gaze 可以补充动作执行与目标信息;当 sEMG 存在噪声时,视觉和 EEG 可以提供动作阶段和意图线索;当 gaze 漂移时,world camera 和动作状态可以帮助恢复目标上下文;当视觉被遮挡时,EEG 和 sEMG 可以补充动作意图与执行状态。

最终,模型看到的是一条经过同步、对齐、配对映射、信号增强和结构化处理的闭环时间轴:环境里有什么,目标在哪里,意图何时出现,肌肉如何响应,动作如何展开,反馈如何发生,下一步又如何修正。

这才是 Ego-NeuroLoop 真正想提供给具身智能模型的东西。

从数据资产,到闭环策略

Ego-NeuroLoop 的价值,不是替代现有 ego-centric、human-centric 数据,而是在它们之上补上更完整的闭环信号。

现有第一视角数据已经很有价值。它提供真实场景、真实任务和真实人类行为,也让世界模型能够学习环境变化、动作轨迹和结果反馈。

但如果进一步加入视线、EEG、sEMG 等多模态信号,数据就不再只是「人做了什么」,而是更接近「人为什么这样做,以及如何在反馈中把事情做对」。

通过 NeuroMatrix 和 NeuroBooster,低成本设备采集到的视觉、视线、EEG、sEMG 等多模态信号,可以被映射成更稳定的闭环语义。这给世界模型提供了更接近人类动作生成过程的数据:从环境感知,到目光锁定目标,到神经层状态变化,再到肌肉执行和反馈修正。

模型可以从这类数据里学习:如何在复杂环境中锁定真正相关的目标,如何在动作发起前形成可执行意图,如何在执行中依据反馈实时修正,如何在失败时切换策略,避免机械重试。

这些能力需要目标、意图、执行、反馈之间形成一条连续的环。这也是这套方案真正想采下来的东西:人类闭环策略。

最后

Loop Engineering 今天会火,是因为大家终于开始认真讨论一个问题:智能系统不能只会答,还得会跑、会验、会改。

但对具身智能来说,这个问题还要再往前走一步。关键不只是把 AI 放进 loop,也不只是把现有第一视角数据用得更高效,而是能不能进一步获得更优质、更闭环的人类操作数据。

从这个角度看,脸谱心智提出 Ego-NeuroLoop,并做出 NeuroMatrix 和 NeuroBooster,真正想解决的是一个更底层的问题:如果未来机器人要像人一样理解世界、组织动作、利用反馈、持续修正,那么训练数据能不能先把「人如何做到这一切」记录清楚?

这条路线从世界模型架构创新,走到了具身智能数据范式创新。