Meta AI 宣布推出新一代的Segment Anything Model (SAM) 2,能够在视频和图像中实现实时的可提示对象分割。
SAM 2可以快速、精确地在任何视频或图像中选择对象。它不仅能在图像中分割对象,还能在视频中追踪对象,即使这些对象在训练时从未见过。该模型支持实时互动,非常适合各种实际应用,比如视频编辑和互动式媒体内容制作。
- 对象分割:
- 它可以在图像或视频中识别出一个特定对象,并将该对象的像素与背景区分开来。例如,在一张包含多个物体的图片中,模型可以准确地找出并标记出某一个物体的轮廓。
- 实时性:
- 模型能够在视频播放的过程中快速处理每一帧,立即识别并分割、跟踪出特定对象。这样可以实现如视频编辑、特效制作等需要快速反馈的应用。
- 可提示:
- 是模型可以根据用户提供的提示(如点击某个物体、框选某个区域等)来进行分割。这种交互方式使得用户可以更精确地控制哪些对象需要被分割。
视频播放器
00:00
00:00
功能特点:
- 统一的图像和视频分割模型:
- SAM 2是一个统一的模型,既可以处理图像分割任务,也可以处理视频分割任务。这意味着它能够在不同类型的视觉数据中实现对象分割,而无需为每种类型单独训练模型。
视频播放器00:0000:00
- SAM 2是一个统一的模型,既可以处理图像分割任务,也可以处理视频分割任务。这意味着它能够在不同类型的视觉数据中实现对象分割,而无需为每种类型单独训练模型。
- 实时对象分割:
- SAM 2具有实时处理能力,能够快速处理视频帧和图像,实时分割出目标对象。这对需要即时反馈的应用场景非常重要,例如视频编辑和实时监控。
视频播放器00:0000:00
- SAM 2具有实时处理能力,能够快速处理视频帧和图像,实时分割出目标对象。这对需要即时反馈的应用场景非常重要,例如视频编辑和实时监控。
- 可提示对象分割:
- SAM 2支持用户通过提示(如点击、框选等)来指定要分割的对象。这种交互方式使得用户可以更精确地控制分割过程,提升分割结果的准确性。
- 零样本泛化能力:
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
视频播放器00:0000:00
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
- 多对象选择和调整
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
视频播放器00:0000:00
- SAM 2能够分割未见过的对象和视觉域(零样本泛化),这意味着它可以在没有特定训练数据的情况下处理新的视觉内容。这使得SAM 2在多种实际应用中具有广泛的适用性。
- 视频追踪能力
- SAM 2通过每个会话的内存模块跟踪视频中的目标对象,即使对象暂时消失在视野中,模型也能通过之前帧的上下文保持对对象的了解。
视频播放器00:0000:00
- SAM 2通过每个会话的内存模块跟踪视频中的目标对象,即使对象暂时消失在视野中,模型也能通过之前帧的上下文保持对对象的了解。
- 高效的人机交互:
- SAM 2在视频分割任务中需要的交互时间约为之前模型的三分之一,大大提高了效率。这在需要大量数据标注的任务中尤为重要,能够显著减少人工标注时间。
- 先进的内存机制:
- SAM 2引入了内存编码器、内存库和内存注意模块,这些组件允许模型记住之前处理过的信息,使得在视频分割过程中能够保持对象的一致性和准确性。
- 开放源码和数据集:
- Meta公司开源了SAM 2的代码和模型权重,并提供了包含约51,000个视频和超过600,000个时空掩码的SA-V数据集。这些资源在Apache 2.0和CC BY 4.0许可证下开放,供研究社区和开发者使用。
模型性能
- 高精度的图像和视频分割:
- SAM 2在图像分割的准确性上超过了之前的版本,并且在视频分割性能上也优于现有的模型。这使得它能够在各种复杂的视觉场景中保持高精度的分割结果。
- 实时推理速度:
- SAM 2的推理速度大约为每秒44帧,确保了在实际应用中能够实时处理视频数据。这对于需要快速反馈的应用场景,如视频编辑和实时监控,尤为重要。
- 减少交互时间:
- SAM 2需要的人工交互时间大约是之前模型的三分之一。这显著提高了标注效率,特别是在需要大量数据注释的任务中,可以大幅减少人工标注的工作量。
- 零样本泛化能力:
- SAM 2具备强大的零样本泛化能力,能够在没有特定训练数据的情况下处理未见过的对象和视觉域。这意味着它可以在各种新的视觉内容中表现出色,而无需进行额外的模型训练或调整。
- 多数据集表现优异:
- SAM 2在17个零样本视频数据集上显著优于之前的交互视频分割方法,并且在人机交互次数上减少了约三倍。
- 在23个图像数据集的零样本基准测试中,SAM 2的性能也显著超过了SAM,同时处理速度提高了六倍。
- 先进的模型架构:
- SAM 2引入了内存机制,包括内存编码器、内存库和内存注意模块,这些组件使得模型能够记住之前处理的信息,从而在视频分割过程中保持一致性和准确性。
- 公平性评估:
- 对于模型的公平性评估显示,SAM 2在不同性别和年龄组的性能差异最小,确保了模型在各种人口统计学特征中的表现一致。
- 改进的对象跟踪:
- SAM 2在视频中能够准确跟踪对象,避免了过度分割的问题。例如,在跟踪一个人穿的T恤时,SAM 2能够保持对T恤的准确跟踪,而不会错误地包括人的头部。
性能指标
- 视频帧处理速度:44帧每秒
- 交互时间减少:交互时间减少至原来的三分之一
- 人机交互效率:在视频分割注释中,SAM 2比手动每帧注释快8.4倍
- 模型公平性:在不同性别和年龄组中的性能差异最小
模型开发
1. 任务设计
可提示的视觉分割任务:
- 任务定义:扩展图像分割任务到视频分割。图像分割是识别图像中目标对象的像素,视频分割则是识别并追踪视频中目标对象的像素变化。
- 提示输入:SAM 2 能接受多种提示形式,如点、框或掩码。这些提示帮助模型在图像或视频帧中定义目标对象。
- 时空掩码(Masklet):在视频分割中,模型不仅在当前帧生成掩码,还会将该掩码传播到视频的其他帧,生成一个时空掩码。
2. 模型开发
统一的架构设计:
- 图像编码器:处理每一帧图像,生成嵌入表示,用于后续的分割任务。
- 轻量级掩码解码器:从图像嵌入和提示中输出分割掩码。对于视频,掩码解码器还需要处理跨帧的信息。
- 内存机制:包括内存编码器、内存库和内存注意模块,这些组件允许模型记住之前处理的信息,并在视频分割过程中使用这些信息保持对象的一致性。
- 内存编码器:根据当前掩码预测生成记忆,并存储在内存库中。
- 内存库:存储之前帧和提示帧的记忆。
- 内存注意模块:从内存库中提取相关记忆,结合当前帧的嵌入,生成新的掩码预测。
3. 数据集构建
- 数据收集:从47个国家收集51,000个真实世界的视频,覆盖多种地理和场景。
- 标注方法:使用互动模型循环与人工标注相结合的方法。标注人员使用SAM 2进行互动标注,生成初始掩码数据,模型根据这些数据进行更新,逐步提升标注效率和质量。
- 数据多样性:确保数据集覆盖各种对象及其部分(例如人的衣服、鞋子等),并处理遮挡、消失等复杂情况。
4. 训练过程
联合训练:
- 数据准备:使用SA-1B图像数据集(来自之前的Segment Anything项目)、SA-V视频数据集和内部许可的视频数据集。
- 训练策略:将图像视为单帧视频,统一进行训练。这样可以利用图像数据的丰富细节和视频数据的时序信息。
- 优化目标:通过联合训练,提升模型在图像和视频中的分割性能。
5. 模型评估与优化
性能评估:
- 基准测试:在17个零样本视频数据集和23个图像数据集上进行评估,验证模型在不同任务中的性能。
- 公平性评估:评估模型在不同性别和年龄组中的表现,确保性能一致。
模型优化:
- 交互效率:通过减少交互次数,提高标注效率。与SAM相比,SAM 2在视频分割任务中交互时间减少了三倍。
- 处理能力:实时处理视频帧,每秒44帧,确保实际应用中的高效性。
应用场景
SAM 2 的广泛应用场景涵盖多个领域,从视频编辑到自动驾驶,再到科学研究和创意应用,以下是一些详细的应用场景:
1. 视频编辑和特效制作
- 实时对象分割:SAM 2 能够在视频中实时分割和跟踪对象,为视频编辑提供高效工具。编辑人员可以快速分割出视频中的特定对象,并应用各种特效,例如背景替换、对象变换等。
- 创意效果:使用 SAM 2 的分割结果,可以创建新的视频效果,例如对象的虚化、变形或增强,为内容创作者提供更大的创作自由度。
2. 自动驾驶和机器人技术
- 环境感知:在自动驾驶和机器人技术中,实时分割和识别周围环境中的各种对象(如行人、车辆、障碍物等)对于导航和决策至关重要。SAM 2 的高精度和实时性使其能够在动态环境中有效工作。
- 数据注释:自动驾驶系统依赖大量标注数据进行训练。SAM 2 可以显著加快数据标注过程,提高标注效率,减少人工成本。
3. 医学研究和医疗应用
- 显微镜视频分析:在显微镜视频中,SAM 2 可以分割和追踪细胞、组织等微小结构,辅助科学研究和医学诊断。例如,在癌症研究中,可以精确定位和分析癌细胞的行为。
- 手术辅助:在内窥镜或腹腔镜手术中,SAM 2 可以实时分割和标记重要的解剖结构,帮助外科医生更精确地进行操作。
4. 科学研究和环境保护
-
- 动物行为研究:通过在视频中分割和追踪动物,研究人员可以详细分析动物的行为模式和运动轨迹。这对于生态学和行为学研究具有重要意义。
- 环境监测:使用无人机或卫星视频,SAM 2 可以实时分割和监测自然环境中的变化,例如森林火灾、洪水等,为环境保护和灾害管理提供关键数据。
5. 安全与监控
-
-
- 实时监控:在安全监控系统中,SAM 2 能够实时分割和跟踪视频中的可疑对象,提高监控效率和准确性。例如,在公共场所监控中,可以快速识别和跟踪潜在的安全威胁。
- 视频分析:通过分析监控视频,SAM 2 可以提取关键对象和事件,为执法部门提供有力的支持。
-
6. 内容创建与娱乐
-
-
- 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,SAM 2 可以实时分割和处理视频中的对象,增强用户体验。例如,AR 应用可以将虚拟对象精确叠加到现实场景中。
- 游戏开发:游戏开发者可以使用 SAM 2 创建更加逼真的游戏环境和角色交互,提高游戏的视觉效果和沉浸感。未来,SAM 2 可以作为大型人工智能系统的一部分,通过 AR 眼镜识别日常用品,并向用户发出提醒和指示。
-
7. 教育与培训
-
-
- 教育视频制作:在教育领域,SAM 2 可以用于制作高质量的教育视频,实时分割和标注教学内容,帮助学生更好地理解复杂概念。
- 培训模拟:在专业培训中,SAM 2 可以用于创建模拟环境,例如医学培训中的手术模拟,提供更直观的学习体验。
-
AutoDraw是一个绘图工具,它使用机器学习和天才艺术家的绘画来帮助每个人快速轻松地创建视觉效果。它的特色是一个建议工具,可以猜测数以百计的图纸,可以在任何设备上使用。它是...