南洋理工等开源EgoLife,开发真正读懂生活的智能管家

B站影视 电影资讯 2025-03-23 23:07 2

摘要:最近一年来,智能眼镜越来越成为科技圈的新宠儿。从今年的 CES 到 AWE,这些时尚小物已经成了展会上的焦点,引得无数参观者驻足体验。与几年前那些笨重、功能单一的早期产品相比,如今的智能眼镜已经变得既时尚又实用,开始真正融入人们的日常生活。

最近一年来,智能眼镜越来越成为科技圈的新宠儿。从今年的 CES 到 AWE,这些时尚小物已经成了展会上的焦点,引得无数参观者驻足体验。与几年前那些笨重、功能单一的早期产品相比,如今的智能眼镜已经变得既时尚又实用,开始真正融入人们的日常生活。

然而,我们心中那个理想中的 AI 助手——能陪你度过一整天,在你饿了的时候推荐符合你口味的餐厅,在你工作时提醒你不要错过重要会议,甚至能预测你可能忘记购买的日用品——这样的场景还停留在科幻电影中。要实现这一愿景,我们需要突破目前 AI 在理解人类长期行为模式和复杂社交互动方面的局限。

最近,南洋理工大学刘子纬助理教授领导的联合团队,就开发了一个名为“EgoLife”的研究项目,试图填补这一空白。该项目旨在开发一种基于可穿戴设备的智能助手,通过第一人称视角理解并辅助用户的日常生活。

图丨相关论文(来源:arXiv)

一个偶然诞生的研究项目

这个项目的诞生颇有些偶然。一切源于 Meta 公司送出的六副 Aria 智能眼镜。拿到这些设备后,研究团队起初只是尝试了一些零散的个人录制场景,如音乐会和足球比赛,但效果并不理想。

随后,他们想到了一个大胆的想法:何不让六个人一起生活一周,全程佩戴这些眼镜记录他们的生活?这样就能获得丰富、真实的第一人称视角数据。

随后通过小红书,团队在两天内收到了 32 份申请,但有意思的是,其中 29 位是女性,仅有的 3 位男性申请者又恰巧在拍摄期间无法参与。最终,项目负责人不得不亲自上阵,而另一位男性参与者则是在开拍前一天临时找到的。否则,这个项目可能就变成了“EgoLife:我被美女包围了”。

而且这些参与者们在 MBTI 人格测试中大多展现出直觉型 (N) 和感知型 (P) 的特质,这表明他们天生就适合开放式、探索性的体验,这一点对于项目的顺利开展起到了积极作用。

招募完成后,研究团队开始着手构建一个专门的环境——“EgoHouse”,让所有参与者在此共同生活。这个生活空间经过精心设计,不仅满足日常生活所需,还在各个角落安装了摄像头和毫米波雷达,为多角度数据采集做好准备。

为了给数据采集提供自然而有目的性的框架,团队设计了一个任务:让六位参与者在一周内共同筹备一场“地球日”庆祝活动。

图丨 EgoLife 项目概览(来源:GitHub)

实际数据采集开始于参与者入住“EgoHouse”的那一刻。每位参与者佩戴 Meta Aria 智能眼镜,这种设备集成了高清摄像头、空间音频麦克风和 IMU(惯性测量单元)传感器,能够全方位捕捉佩戴者的视觉、听觉和运动信息。团队要求每人每天至少记录 6 小时的清醒活动,以确保数据的连续性和代表性。

除了参与者佩戴的智能眼镜外,“EgoHouse”内还布置了 15 个外部 GoPro 摄像头,分布在公共区域,从第三人称角度记录所有互动。这些摄像头与智能眼镜同步工作,提供多角度视角,有助于后期对自我中心视频内容的验证和扩充。此外,两个毫米波雷达设备安装在二楼,用于提供空间和运动数据,进一步丰富了多模态数据采集的维度。

整个数据采集过程持续了七天,期间参与者们进行了各种的活动:从讨论地球日主题、排练音乐和舞蹈表演,到共同烹饪、外出购物和布置场地。这些活动自然而然地产生了大量有价值的社交互动和协作场景,为数据集提供了真实、丰富的内容。最终,团队收集了约 300 小时的自我中心视频,以及大量同步的第三人称视角数据,构成了 EgoLife 数据集的原始素材。

数据集和基准测试构建

原始数据收集完成后,研究团队开发了一套完整的数据处理流程,包括 EgoSync(数据同步)、EgoBlur(隐私保护)、EgoCaption(密集描述)和 EgoTranscript(转录)等多个模块,从而将这些海量、多源的数据转化为结构化、可用数据集。

具体来说,研究团队首先将所有自我中心视频同步,将六位参与者的音轨合并,并应用语音识别技术生成初步的时间戳转录文本。使用开源的分辨算法区分不同说话者后,将音轨分成六个独立的轨道,进行进一步细化,确保每段转录准确反映每位参与者能听到的对话内容。

除此之外,研究团队还对数据进行了详细的标注。他们将视频分成 5 分钟的片段,以 0.8 倍速播放,让注释员通过连续、详细的口述为每个片段提供高密度信息。这些口述内容被转换成文本后,形成了 361,000 条简短的“旁白”片段,平均每条持续 2.65 秒。随后,团队使用 GPT-4o-mini 将相关片段合并成 25,000 条“合并字幕”,形成与特定视频段落对齐的连贯句子。最后,这些字幕与每秒抽样的代表性画面和对应的转录文本配对,经 GPT-4o 总结,创建了丰富的“视听字幕”,最终由人类注释员验证准确性。

这些精心创建的注释不仅直接用于训练 EgoGPT 模型,还成为自动生成 EgoLifeQA 问答数据的基础,为研究团队构建长情境、面向生活的问答基准测试提供了坚实支持。

基于这些丰富的注释,研究团队开发了 EgoLifeQA 基准测试,这是一套专门设计用来评估 AI 在长情境、生活导向的问答任务中的表现能力。EgoLifeQA 与现有的基准测试如 EgoSchema、EgoPlan-Bench 等有本质区别:它要求 AI 系统能够处理远超 2 小时的超长视频内容,在某些问题上甚至需要追溯数天前的信息。

EgoLifeQA 包含五种类型的问题,每一种都针对生活助手的不同核心能力:

图丨 EgoLifeQA 基准中的问题类型和示例(来源:GitHub)

EntityLog(实体日志)专注于测试 AI 对物品细节的长期记忆能力。例如,“我们付的酸奶价格最接近哪个选项?A. 2 元 B. 3 元 C. 4 元 D. 5 元”。要回答这个问题,AI 需要回忆起购物场景中的具体价格信息,这可能发生在几天前的某个片段中。

EventRecall(事件回忆)考验 AI 回忆过去事件的能力。如“在计划跳舞后第一首被提到的歌是什么?”这类问题需要 AI 在海量视频中定位特定会话内容,理解对话上下文并提取关键信息。

HabitInsight(习惯洞察)要求 AI 能够识别和分析个人行为模式。比如“我喝咖啡时通常同时做什么活动?”回答这类问题需要 AI 系统对用户的日常习惯有全面了解,能够从多天的数据中归纳出规律。

RelationMap(关系映射)测试 AI 理解人际互动模式的能力。像“Shure 正在弹吉他,还有谁通常和我们一起弹吉他?”这样的问题需要 AI 能够识别不同人物,并记住他们之间的社交互动历史。

TaskMaster(任务管理)评估 AI 基于过去行为提供建议的能力。例如“我的购物车里已经有很多东西了,我们之前讨论过但我还没买的是什么?”这要求 AI 不仅能记住购物清单,还能追踪已完成的购买和未完成的意图。

这些看似日常的问题对 AI 提出了极高要求,因为回答它们需要从小时甚至数天前的记录中检索相关信息,这远超出当前大多数 AI 系统的能力范围。

融合视听理解与长期记忆的 AI 助手

与 EgoLifeQA 的一系列挑战相对应的是,研究团队开发了 EgoButler 系统以解决这些问题,它由两个核心组件组成:EgoGPT 负责片段级的全模态理解,EgoRAG 负责长情境问答。这两个系统协同工作,共同实现对超长视频内容的理解和问答能力。

图丨 EgoBulter 架构(来源:GitHub)

EgoGPT 是 EgoButler 系统的基础组件,它在系统中承担两项关键任务:一是持续视频描述,处理每个 30 秒的视频片段,利用视觉和音频输入生成详细描述;二是协助问答,利用从 EgoRAG 检索到的线索提供精准回答。

为了使模型更好地适应自我中心视频领域并整合音频理解能力,研究团队专门开发了 EgoIT-99K 数据集。这是一个多样化、具有代表性的自我中心视频集合,涵盖 9 个经典自我中心视频数据集,包括 Ego4D、Charades-Ego、HoloAssist 等。团队精心挑选了 1,529 个视频(其中 686 个带音频),总时长达 43.16 小时,并基于原始注释生成了 99,480 个问答对,涵盖视频描述、音视频描述、多项选择题和多轮对话等多种类型。

EgoGPT 的构建基于 LLaVA-OneVision 模型(该模型本身基于 Qwen2 架构)。为了增强音频处理能力,团队参考 Ola 模型的设计,开发了一个音频分支,使用 Whisper Large v3 编码音频,并在 LibriSpeech 数据集上训练音频投影模块。从音频投影模块到 LLaVA-OneVision 的整合过程中,团队使用 EgoIT-99K 进行最终阶段微调。为实现个性化,他们还在 EgoLife 第一天的视频上对 EgoGPT 进行了特定训练,使模型能够进行身份识别,这对于 EgoLifeQA 中的人际关系理解至关重要。

另一方面,针对长时间跨度、长情境场景的挑战,研究团队开发了 EgoRAG 检索增强生成系统,它增强了记忆和查询能力,实现了个性化和长期理解。这个系统的工作原理可以类比为人类的记忆组织方式。比如说,如果有人问我们“三天前的早餐你吃了什么”,我们通常不会从三天前的每一分钟开始回忆,而是先回想到大致的那一天(星期几),然后定位到早上的时间段,最后才想起具体的早餐内容。EgoRAG 正是模拟了这种分层记忆检索的过程。

EgoRAG 采用两阶段方法:记忆库构建和内容检索响应生成。

在记忆库构建阶段,EgoRAG 不断收集 EgoGPT 对每个 30 秒视频片段生成的详细描述,这些描述包含了视频中发生的事件、对话和环境细节。然后,它会定期对这些片段描述进行“总结”,形成不同层级的记忆:

·细粒度记忆:原始的 30 秒片段描述,保留了最详细的信息

·小时级摘要:对每小时内容的概括,汇总了主要事件和活动

·天级摘要:对每天内容的总结,捕捉了一天中的关键点和模式

这种层级结构使得系统能够高效地管理和检索海量信息,就像给记忆建立了一个多层索引系统。

当用户提出问题时,EgoRAG 的智能检索回答阶段开始工作:

首先,它会分析问题,提取关键词和时间线索。例如,如果问题是“昨天我们在超市买了什么牌子的酸奶?”,系统会识别出“昨天”、“超市”和“酸奶”是关键信息。

接着,它会先在天级摘要中寻找与“昨天”和“超市”相关的内容,快速缩小搜索范围到特定的时间段。

然后,它深入到那个时间段的小时级摘要和细粒度记忆,精确定位与“酸奶”相关的片段。

最后,它将找到的相关片段送入 EgoGPT,由 EgoGPT 整合这些信息,生成一个准确、上下文相关的回答。

这种层级检索策略极大地提高了效率。要是系统需要在一周的视频内容(约 300 小时)中逐帧搜索“酸奶”,这显然极其低效。而通过先确定大致时间段,再细化搜索,EgoRAG 能够在几秒钟内完成这个过程。

EgoButler 系统的整体架构将 EgoGPT 和 EgoRAG 有机结合,形成了一个功能完整的 AI 助手系统。EgoGPT 持续收集个性化的自我中心数据,而 EgoRAG 检索并提供相关线索,共同实现准确、上下文感知的响应。这种协同工作模式使系统能够处理复杂的长情境问答任务,理解用户的长期行为模式和社交互动。

性能表现如何?

研究团队对 EgoButler 系统进行了全面的性能评估。在现有的自我中心基准测试(如 EgoSchema、EgoPlan 和 EgoThink)上,EgoGPT 展现出了与 GPT-4v、Gemini-1.5-Pro 和 GPT-4o 等商业模型相当甚至超越的性能。尤其是经过 EgoLife 第一天数据微调的 EgoGPT(EgoIT+EgoLifeD1) 在 EgoSchema 上达到了 75.4% 的准确率,超过了 GPT-4o 的 72.2% 和 LLaVA-OV 的 60.1%。

在 EgoLifeQA 基准测试上,EgoButler 系统同样表现出色。与单独使用通用视频语言模型相比,集成了 EgoRAG 的系统在长情境问答方面取得了显著提升。实验结果表明,对于需要 2 小时以上认证长度的问题,EgoGPT+EgoRAG 的准确率达到 35.7%,而单独使用 Gemini-1.5-Pro 仅为 14.8%,EgoGPT 为 29.1%。这一差距在超过 24 小时认证长度的问题上更为显著,EgoGPT+EgoRAG 达到 35.4%,远高于 Gemini-1.5-Pro 的 18.4% 和 EgoGPT 的 25.0%。

图丨 EgoGPT 与最先进模型在 EgoLifeQA 基准上的性能比较(来源:GitHub)

不过,虽然 EgoButler 系统在多个任务上表现出色,但研究团队也坦诚地指出了系统面临的挑战。定性分析表明,EgoGPT 在个性化和生成上下文相关描述方面表现优异,但也存在明显的局限性。

首先是 EgoGPT 的语音理解仍然不完整,它在理解人类笑声和情感方面存在困难,这可能是由于其依赖于 ASR 训练数据。身份识别是另一个挑战。由于模型仅在 EgoLife 第一天的数据上进行微调,它倾向于过度拟合早期观察。例如,如果某人在第一天穿蓝色衬衫,EgoGPT 可能会错误地将后来穿蓝色衣服的不同人识别为同一个人,这暴露了目前个性化策略的局限性。

EgoRAG 虽然能够检索长情境证据,但其检索机制缺乏多步推理能力。它执行单次搜索,没有迭代优化或逐步推理,当直接检索中缺少相关信息时容易失败。这种缺乏容错性的特点意味着,如果 EgoRAG 无法找到支持证据,它就无法提供答案,而不是围绕缺失信息进行推理。

而这些不足,也将是研究团队未来研究的关键方向。他们计划进一步扩展数据集,涵盖更广泛的语言、地点和活动,并开发更复杂的模型,推动 AI 理解和增强日常生活的能力边界。

目前,项目已经在 Hugging Face 上开源。(项目地址:https://huggingface.co/papers/2503.03803)

参考资料:

1.https://arxiv.org/abs/2503.03803

2.https://egolife-ai.github.io/blog/

来源:DeepTech深科技

相关推荐