核心指标优于混元WorldPlay！快手可灵提出世界模型记忆新范式，实现隐藏对象的动态一致性

2026-04-16 16:19:06

智猩猩AI整理

编辑：六六

真正的世界模型不仅需要记住对象的外观，还必须在思维中预测其未被观察到的轨迹，确保即使在视野外间隔期间也能保持视觉与运动的连续性。其中记忆机制尤为关键，其容量直接决定生成内容的时空一致性。

近期的研究虽然通过检索与压缩技术增强了模型的记忆容量，但现有方法擅长处理静止环境，却很难应对动态对象自身的运动规律。

为了弥补这一不足，快手可灵研究团队联合提出一种新的记忆范式：混合记忆（Hybrid Memory），要求模型同时精确记忆静态背景并持续追踪动态对象。为此，研究团队构建了首个专用大规模视频数据集 HM-World，并提出记忆方法 HyDRA，在保持静态背景连贯性的同时，寻求隐藏对象并维持动态一致性。

论文标题：Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
论文链接：https://arxiv.org/pdf/2603.25716
项目主页：https://kj-chen666.github.io/Hybrid-Memory-in-Video-World-Models/

01 方法

1. 混合记忆

如图 1 所示，混合记忆要求一种更为复杂的认知跨越：当对象隐藏于视野之外时，模型不仅需要记住其外观，还需在思维中预测其未被观察到的轨迹，以确保对象重新进入画面时的视觉连贯性与运动一致性。

图 1 混合记忆要求模型在保持背景静态一致性的同时，在动态对象处于视野外的时间间隔内，维持其运动与外观的一致性。

2. 混合动态检索注意力

模型必须在保持静态背景的同时追踪运动对象，以维持其外观与运动一致性。为此，提出混合动态检索注意力 HyDRA（Hybrid Dynamic Retrieval Attention）的记忆机制，旨在相机运动条件下，在保持静态背景连贯性的同时，寻求隐藏对象并维持动态一致性。

如图 2 所示，HyDRA 先用一个 memory tokenizer 把隐变量压缩成紧凑、包含运动信息的 memory token。

在生成视频的过程中，一个基于时空相关性的检索模块会计算当前 query 与 memory key 之间的匹配程度，然后选出最相关的 top‑k 个 token。

图 2 HyDRA 整体架构。（a）Memory Tokenization 模块。（b）动态检索注意力机制。

这种有选择性的检索可以把关键的运动和外观信息引入生成过程，帮助模型“重新发现”之前消失的对象，并在它们离开视野后再出现时，自然地接续上原有的运动轨迹。

02 数据集

由于自然视频中完美捕获、无遮挡的离场与再入场事件极为稀缺，因此研究团队构建了 HM-World——一个专门针对混合记忆定制的数据集。如图 3 所示，数据生成过程沿四个维度展开：场景、对象、对象轨迹及相机轨迹。

图 3 HM-World 的构建流程。

该数据集包含 5.9 万个视频片段，特意将相机轨迹与对象运动轨迹解耦，从而创造出大量对象先滑入未观察区域而后重新出现的自然实例。此外，HM-World 展现出卓越的多样性，涵盖 17 种风格迥异的场景、49 种不同对象（包括多种外观的人类及多个动物物种）、10 种对象运动路径以及 28 种相机轨迹类型。HM-World 具有两个核心特性：

精心设计的、包含动态对象离场与入场的镜头；
高度多样化的场景、对象及运动模式。

03 评估

所提方法基于 Wan2.1-T2V-1.3B 构建，模型在所提出的 HM-World 数据集上使用 32 块 GPU 训练 10,000 步。基线方法基于 Wan2.1-T2V-1.3B 模型，并配备了相机编码器，直接将上下文隐变量与带噪隐变量拼接作为 DiT 的输入。

评估指标涵盖三个类别：1）通用记忆容量（PSNR、SSIM、LPIPS）衡量整体重建保真度。2）帧级一致性，包含对象一致性（Subject Consistency）与背景一致性（Background Consistency），度量帧级连贯性。3）动态对象一致性（DSC），其中评估相对于真实值的运动与外观保真度，而评估相对于历史上下文的保真度。

1. 定量比较

如表 1 所示，HyDRA 在所有评估指标上均优于对比方法。与基线相比，PSNR 从 18.696 提升至 20.357，SSIM 从 0.517 提升至 0.606，表明 HyDRA 具有更优的未来帧重建精度。同时，与均为最高，证明了其在追踪对象并保持其外观与运动一致性方面的强大能力——无论是在与历史上下文对齐还是预测未来状态方面。对象一致性与背景一致性进一步验证了该方法在保持整体视觉连贯性的同时锚定静态背景。

表 1 与其他方法的定量比较

表 2 展示了与以卓越一致性著称的先进商业模型 WorldPlay 零样本性能的比较。所提方法在所有指标上均超越 WorldPlay，PSNR 差距尤为显著（高出 5.502）。这些结果凸显了所提模型的卓越能力，证明了其相对于已有商业模型的优越性。

表 2 与先进的商业模型进行定量比较。

2. 定性比较

图 4 展示了定性比较结果。在复杂的离场‑入场事件中，基线与 Context-as-Memory 表现出严重的对象扭曲与运动不连贯。DFoT 无法维持对象的完整性，导致对象完全消失。WorldPlay 虽然能够保持对象的外观一致性，但其运动存在卡顿和不自然动作。相比之下，所提方法成功维持了混合一致性，在对象重新进入画面后，既保持了对象的身份特征，也保持了运动连贯性。