• 注册
  • 查看作者
    • 告别“变脸”:字节跳动StoryMem系统曝光,AI视频角色一致性获重大突破

      道摩社 - 遇见有趣的你!年轻人的兴趣社交分享平台!
      广告
      推荐: 网页制作、企业官网、网站建设PC手机五端合一980元起!电话/微信:13825082519

      告别“变脸”:字节跳动StoryMem系统曝光,AI视频角色一致性获重大突破

      你是否也曾被AI生成的视频惊艳,却又被其“角色变脸”瞬间劝退?前一秒还是英俊的王子,转场后可能就变成了陌生的面孔。长期以来,“角色一致性”始终是AI视频创作中难以逾越的鸿沟。

      近日,字节跳动(ByteDance)与南洋理工大学(NTU)研究团队联手发布了名为StoryMem的全新系统,为这一难题提供了极具创新性的解决方案。

      给AI装上“视觉记忆库”

      目前的顶尖模型如Sora、Kling或Veo,虽然能生成精美的短片段,但在处理包含多个镜头的长故事时,往往会因为缺乏长效记忆而导致角色外貌、环境细节甚至叙事逻辑的断裂。

      StoryMem的核心逻辑在于**“模拟人类记忆”。研究团队提出了M2V(Memory-to-Video)**架构,通过一种动态的记忆管理策略,为视频生成过程配备了一个“视觉记忆库”。

      • 智能存储: 系统在生成视频的过程中,不会胡乱堆砌所有画面,而是通过算法智能筛选出视觉上最重要的关键帧(Keyframes)存入内存。

      • 跨时空参考: 当模型开始生成新场景时,它会主动检索并参考这些存储的关键帧。通过赋予记忆帧“负时间索引”,系统能引导AI识别出哪些是“过去的视觉特征”,从而确保新画面中的角色与之前保持高度契合。

      性能飞跃:一致性提升近29%

      在实际训练中,StoryMem采用了轻量化的LoRA(低秩适应)技术,成功适配了阿里巴巴开源的Wan2.2-I2V基础模型。研究团队利用多达40万段(每段5秒)的视频片段进行强化,使其学会如何根据风格相似性进行“续集”创作。

      数据表现令人振奋:根据最新的测试结果,StoryMem在跨场景一致性上的指标较原生基础模型提升了28.7%。在与目前市面上公认的领先技术(如HoloCine)对比中,StoryMem在画面美观度、提示词遵循度以及全局语义对齐方面均表现出显著优势。用户调研也显示,大多数参与者认为StoryMem生成的视频更具“电影感”且更易于理解。

      技术盲区与进阶建议

      尽管StoryMem的表现令人惊艳,但研究团队在论文中也保持了理性的克制,指出了当前系统存在的局限性:

      • 多角色挑战: 在角色众多的复杂交互场景中,系统有时会出现“张冠李戴”,将A角色的视觉特征误用到B角色身上。

      • 提示词依赖: 想要获得最佳效果,用户仍需在每个镜头提示中明确、详尽地描述角色的关键特征,辅助模型进行记忆调取。

      行业影响:分钟级视频创作降门槛

      StoryMem的出现,意味着创作者未来可以更轻松地利用AI生成长达一分钟甚至更久的、逻辑连贯的剧情短片。这不仅降低了电影工业预演、动画分镜制作的成本,也为普通短视频创作者打开了通往“AI叙事”的大门。

      目前,该项目的相关代码和模型已在GitHub及Hugging Face上开源,社区甚至已经开始尝试将其集成到ComfyUI等工作流工具中。AI视频生成的“连贯时代”,或许真的已经到来了。

    • 0
    • 0
    • 0
    • 5.3k
    • 请登录之后再进行评论

      登录
    • 发布
    • 任务
    • 实时动态
    • 单栏布局 侧栏位置: