世博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载

新闻动态你的位置:世博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载 > 新闻动态 > 欧洲杯体育这不仅末端了模子的感知才能(举例-世博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载
欧洲杯体育这不仅末端了模子的感知才能(举例-世博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载

2025-11-13 07:44    点击次数:183

  

欧洲杯体育这不仅末端了模子的感知才能(举例-世博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载

东说念主类能当然地感知 3D 寰球的几何结构与语义践诺 ,但对 AI 而言,这"两者兼得"一直是庞大挑战。

传统表率将 3D 重建(底层几何)与空间相识(高层语义)割裂处理 ,导致作假蕴蓄且无法泛化 。而新表率试图将 3D 模子与特定的视觉话语模子(VLM)"锁死" ,这不仅末端了模子的感知才能(举例,无法辨别归并类别的两个不同实例 ),更进攻了其适应更强下贱任务的扩张性 。

咫尺,NTU 合资 StepFun 建议了 IGGT ( Instance-Grounded Geometry Transformer ) ,一个翻新的端到端大型长入 Transformer,初度将空间重建与实例级辗转文相识游刃有余。

为料理上述问题,本盘考的主要孝顺在于:

端到端长入框架:

  建议 IGGT,一个大型长入 Transformer,将空间重建和实例级辗转文相识的常识长入在归并个模子中进行端到端训诫 。

大领域实例数据集: 

构建了一个全新的大领域数据集 InsScene-15K,包含 15K 个场景 、2 亿张图像 ,以及通过新颖数据管线标注的高质地、3D 一致的实例级掩码 。

实例解耦与即插即用: 

开创"实例接地的场景相识" ( Instance-Grounded Scene Understanding ) 范式 。iGGT 不与任何特定 VLM 绑定,而是生成实例掩码当作"桥梁" ,使其能以"即插即用"的方式与轻易 VLMs(如 CLIP, OpenSeg )和 LMMs(如 Qwen-VL 2.5 )无缝集成 。

多应用撑握:  该长入暗意极地面扩张了下贱才能,是首个能同期撑握空间追踪、怒放词汇分割和场景问答(QA)的长入模子 。

InsScene-15K 数据集的构建

InsScene-15K 数据集是通过一个新颖的数据料理历程构建的 ,该历程由 SAM2 驱动 ,并整合了三种不同源流的数据,每种源流的处理方式不同。

图 2  △InsScene-15K 数据集标注管线总览。

合成数据 ( Synthesis Data - 如 Aria, Infinigen ) :

这是最平直的。在模拟环境中,RGB 图像、深度图、相机位姿和物体级的分割掩码被同期生成 。 由于这些模拟生成的掩码是"圆善准确的" ,因此无需任何后处理,平直使用。

真确寰球视频麇集 ( Video Captured - 如 RE10K ) :

这个历程如图 2 ( a ) 所示,是一个定制化的 SAM2 视频密集展望管线 。 源流,在视频的第 0 帧使用 SAM 生成密集的开动掩码提议 ( Initial Mask Proposals ) 。 然后,使用 SAM2 视频对象分割器将这些掩码在时分上上前传播 ( Propagate Masks Forward ) 。 为了处理新出现的对象或幸免漂移,管线会迭代式地添加新要道帧:若是未被阴私的区域源流阈值,就在新帧上重新运行 SAM 来发现新物体 。 终末,引申一次双向传播 ( Bi-directional Propagation ) 来确保通盘视频序列的高度时分一致性 。

真确寰球 RGBD 麇集 ( RGBD Captured - 如 ScanNet++ ) :

这个历程如图 2 ( b ) 所示,是一个掩码优化历程 ( Mask Refinement Pipeline ) 。 ScanNet++ 自带的 3D 标注是约略的 。历程源流将这些 3D 标注投影到 2D 图像,以得到具有一致 ID 的开动 GT 掩码 。 同期,使用 SAM2 为归并张 RGB 图像生成相貌精准但莫得 ID 的细粒度掩码提议 。 要道要领是匹配与合并:将 SAM2 生成的紧密掩码与投影的约略 GT 掩码进行对王人,为紧密掩码分派正确的、多视图一致的 ID 。 通过这种方式,管线极地面栽种了 2D 掩码的质地,使其既保握了 3D 的 ID 一致性,又具有了 SAM2 级别的相貌准确性 。

IGGT 模子的构建

IGGT 架构概览:

输入图像被编码为长入的 Token 暗意,随后由几何头(Geometry Head)和实例头(Instance Head)分别处理,以同期生成高质地的几何重建和实例接地的聚类恶果。

IGGT 的架构由三部分要道组件组成:

长入 Transformer ( Large Unified Transformer )

解任 VGGT,模子源流使用预训诫的 DINOv2 索取图像块级 Token。随后,通过 24 个贯注力模块对多视图图像的 Token 进行 intra-view self-attention 和 global-view cross-attention,将其编码为遒劲的长入 Token 暗意 Ti。

双解船埠与跨模态交融 ( Downstream Heads and Cross-Modal Fusion )

长入 Token 被送入两个并行的解码器:

Geometry Head: 接纳自 VGGT,老成展望相机参数、深度图和点图。

Instance Head: 弃取 DPT-like 架构,解码出实例特征。

Cross-Modal Fusion Block: 为了让实例头感知紧密的几何规模,团队谋略了一个跨模态交融块。它通过一个窗口滑动交叉贯注力 ( sliding window cross attention ) ,将几何头的空间结构特征高效地镶嵌到实例暗意中,权贵增强了实例特征的空间感知才能。

3D 一致性对比监督 ( 3D-Consistent Contrastive Supervision )

为了让模子仅从 2D 输入中学到 3D 一致的实例特征,团队谋略了一个多视角对比逝世 Lmvc。 该逝世的中枢想想是:在特征空间中,"拉近"来自不同视角但属于归并 3D 实例的像素特征,同期"推开"属于不同实例的特征。

其中 m ( pi ) 和 m ( pj ) 分别是像素 pi 和 pj 的实例 ID,而 fpi 和 fpj 是其对应的实例特征。

基于实例 Grounded 的场景相识

其中枢想想是将 3D 模子的长入暗意与下贱的特定话语模子(VLMs 或 LMMs)进行"解耦" 。

这与以往的表率不同,以往的表率频频将 3D 模子与特定的话语模子(如 LSeg)"紧密耦合"或"强行对王人",这末端了模子的感知才能和扩张性 。源流欺诈无监督聚类(HDBSCAN)将 IGGT 展望的 3D 一致性实例特征分组,从而将场景分割为不同的对象实例 。

这些聚类恶果随后被重新投影以生成 3D 一致的 2D 实例掩码 ,这些掩码充任"桥梁" ,罢了了与各式 VLMs(如 CLIP、OpenSeg)和 LMMs(如 Qwen2.5-VL)的"即插即用"式集成 。这种解耦范式极地面扩张了模子的应用范围:

实例空间追踪 ( Instance Spatial Tracking ) :  欺诈聚类生成的 3D 一致性掩码,不错在多个不同视角的图像中密集地追踪和分割特定对象实例,即使在相机大幅开通的情况下也不易丢失地点 。

怒放词汇语义分割 ( Open-Vocabulary Semantic Segmentation ) :  实例掩码不错当作"提醒"(prompts),被送入轻易现成的 VLM(如 OpenSeg) 。VLM 会对每个掩码界说的区域分派一个语义类别,从而罢了怒放词汇的分割 。

QA 场景定位 ( QA Scene Grounding ) :  这种解耦的实例聚类不错与 LMM(如 GPT-40 或 Qwen-VL 2.5)交互 。举例,不错在多个视图中高亮理解归并个实例的掩码,然后向 LMM 发问,以在 3D 场景中引申以对象为中心的复杂问答任务 。

实证恶果

比拟于已有的表率,IGGT 是唯独一个粗略同期作念到重建、相识和追踪三个任务的模子,并在相识和追踪地点上大幅栽种。

在实例 3D 追踪任务上,IGGT 的追踪 IOU 和得胜率高达 70% 和 90%,是唯独一个粗略得胜追踪物体销亡又重新出现的模子。

IGGT 与 SAM2 和 SpaTracker+SAM 进行比较。为了了了起见,总共实例都使用不同的 ID 和情绪进行可视化。

团队同期还针对场景作念了充分的可视化实验,不错看出 IGGT 粗略生成 3D 一致的基于实例的特征,这些特征在多个视图中保握辨别性:归并类别的多个实例在 PCA 空间中呈现一样但可辨别的情绪。

将 3D 一致的 PCA 恶果与基于实例特征的聚类掩码进行可视化。PCA 中一样的情绪暗意实例间的特征一样度更高。关于聚类掩码,归并个对象实例在多个视图中分享洽商的情绪。

在 2D / 3D 怒放词汇分割任务上,成绩于 Instance-grounded paradigm 的特质,不错无缝接入最新的 Vision-Language Model 以栽种模子的查询性能。

Scannet 和 Scannet++ 上的 2D 怒放词汇分割的定性恶果:

Scannet 和 Scannet++ 上的 3D 怒放词汇分割的定性恶果。

此外,团队还不错欺诈实例掩码(instance masks)构建视觉提醒(visual prompts),并将其接入如 Qwen-VL 等大型多模态模子(LMM),以罢了更复杂的针对场景中特定物体的查询与问答任务。相背,即即是面前起先进的 LMM 模子,在处理多视图或三维场景相识方面仍存在权贵的局限。

与 vanilla Gemini 2.5 Pro 比拟,QA 场景相识的应用:

论文策划:https://arxiv.org/abs/2510.22706

时势主页:https://lifuguan.github.io/IGGT_official

Huggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K

一键三连「点赞」「转发」「注意心」

接待在挑剔区留住你的主见!

—  完  —

咱们正在招聘别称眼疾手快、宽恕 AI 的学术裁剪实习生  � �

感兴致的小伙伴接待宽恕 � �  了解细目

� � 点亮星标 � �

科技前沿发达逐日见欧洲杯体育