UStackUStack
Avatar V icon

Avatar V

HeyGen Avatar V 基于15秒摄像头录制生成逼真的AI数字人,从不同场景角度保持身份一致,自然动作与口型对齐,支持175+语言。

Avatar V

Avatar V 是什么?

Avatar V 是 HeyGen 的 AI 数字人生成器。它基于短视频录制创建能够匹配人物身份——动作、手势和表情——的数字人,目标是在新视频场景中保持身份一致。

根据页面介绍,早期的数字人方法依赖照片或短片来动画化面部。Avatar V 被定位为更先进的基于视频的身份模型,从 15 秒摄像头录制中学习动作和表情,然后将该身份应用于不同场景、服装和外观生成数字人。

主要特性

  • 从 15 秒摄像头录制中进行视频上下文身份学习,构建数字人,无需专业摄影棚或团队。
  • 跨场景和角度的角色一致性,确保数字人在多个生成视频中保持连贯身份。
  • 多角度生成(广角、中景和特写视角),源自单一录制,支持不同构图和格式。
  • 动态动作,包括流畅上身移动和响应式手势,适应场景变化。
  • 音素级更精确唇同步,实现数字人所说与观众所见一致,支持 175+ 语言和方言。
  • 面部表情保真度,包括眉毛动作、眼神接触和微表情;描述为基于 10M+ 数据点训练。

如何使用 Avatar V

  1. 录制短摄像头视频(页面指定 15 秒)。
  2. 使用录制创建你的 Avatar V 数字人。
  3. 通过选择不同场景/背景及其他可能变更(例如服装/外观)生成新视频,同时在输出视频中保持相同身份。

使用场景

  • 培训和教育模块:创建一致的屏幕呈现者数字人,用于较长课程片段,无需为每个场景重新录制。
  • 多格式营销和社会内容:从单一源录制生成不同构图风格(广角、中景、特写)的视频。
  • 产品讲解和演示:保持稳定发言人身份,同时更改背景或场景上下文以匹配内容。
  • 多语言配音活动:生成跨多种语言和方言(所述:175+)的唇同步数字人语音。
  • 远程创作者工作流:无需拍摄数小时素材或依赖摄像团队,即可生成专业级数字人视频输出。

常见问题

Avatar V 需要什么输入?

页面指出,创建数字人需要 15 秒摄像头录制。

Avatar V 与早期 HeyGen 数字人模型有何不同?

页面描述 Avatar V 使用完整视频上下文,而非单一参考帧条件,旨在减少跨场景和较长视频的身份漂移。

Avatar V 支持多种语言吗?

是的。页面指出音素级唇同步支持 175+ 语言和方言。

数字人在不同场景和摄像角度下会保持一致吗?

Avatar V 被描述为从单一录制中跨场景和多角度(广角、中景、特写)保持连贯角色身份。

视频长度有限制吗?

页面强调长形式生成的身份稳定性,但摘录中未提供具体最大时长。

替代方案

  • 基于视频的数字人或数字人生成器(照片转视频或片段转数字人工具):这些通常使用较短参考输入(照片或单片段),可能影响跨场景的身份一致性。
  • 摄影棚式数字人制作工作流:非 AI 身份学习,而是依赖大量拍摄和后期制作实现一致肖像和表现。
  • 通用唇同步和文本转语音数字人管道:这些聚焦语音同步和语音工作流,但可能需额外步骤以在变化场景中维持稳定身份。