xAR – 字节跳动自回归视觉生成新突破,性能超越DiT且推理快20倍

AI项目2个月前发布 MeoAI
303 0

一、xAR 是什么,和传统模型有何区别

在人工智能领域,自回归(AR)模型在自然语言处理与视觉生成等方面成果显著。传统自回归模型在视觉生成任务里,常以固定“标记”作为最小预测单元,比如视觉中的量化块。这种方式在处理图像结构时,标记定义缺乏优化,且存在训练依赖教师强制、推理易误差累积的暴露偏差问题。

字节跳动推出的扩展自回归(xAR,Extended Autoregressive)框架,xAR不仅在性能上超越了传统的 DiT模型,还在推理速度上实现了显著提升,比DiT快达20 倍。这一突破使得 xAR 在高质量图像和视频生成任务中具有广阔的应用前景。它颠覆了传统模式,是一种新型自回归框架。xAR 将标记概念拓展为灵活的“实体 X”,X 可以是单个块标记、一个单元(相邻块分组)、一个子样本(远距离块非局部分组)、一个尺度(从粗到细分辨率),甚至一整幅图像。同时,xAR 把离散标记分类转变为连续实体回归,每个自回归步骤采用流匹配方法,以有噪声实体而非真实标记为条件训练,实现噪声上下文学习,有效缓解暴露偏差问题。与传统模型相比,xAR 不再局限于固定的预测单元,而是能够根据不同的任务需求和数据特征,灵活调整预测的粒度和方式,极大提升了模型的适应性与性能。有效解决了传统自回归模型在图像生成中的信息密度低和累积误差问题。

xAR-ByteDance

xAR的项目地址

二、xAR 有哪些功能,实际使用效果如何

(一)高质量图像生成

  • 突破传统限制,性能卓越:在 ImageNet – 256 生成基准测试中,xAR 展现出惊人实力。其基础模型 xAR – B(1.72 亿参数),推理速度比 DiT – XL/SiT – XL(6.75 亿参数)快 20 倍,且性能更优。这意味着 xAR 能用更少计算资源、更快速度生成高质量图像。在生成复杂自然场景图像时,xAR 能清晰呈现树叶脉络、动物毛发等丰富细节,不会模糊或失真,实际使用效果远超传统模型,有力回应了 “xAR 好用吗” 的疑问。
  • 灵活适应场景,精准生成:xAR 支持灵活预测单元,可捕捉不同上下文粒度和空间结构。在生成风景、人物、建筑等不同类型图像时,能依据图像特点和需求动态调整预测单元。生成含广阔天空和细腻云朵的风景图像时,初期用较大尺度预测单元构建天空大致轮廓,确定色调和光影分布;后期处理云朵细节时,切换到小单元精准描绘形状和纹理,满足多样化的创作需求,也让用户切实感受到 xAR 强大的功能优势。

(二)高效视频生成

  • 计算量大幅降低,节省资源:在视频生成任务中,计算量消耗一直是个难题,而 xAR 凭借独特技术架构有效减少计算量。与传统视频生成模型相比,xAR 在不损失视频质量的前提下,显著降低计算量。在生成动态动画视频时,xAR 利用灵活预测实体合理分配计算资源,快速生成流畅动画序列,减少对硬件计算资源的依赖,实际使用中能为用户节省大量时间与成本。
  • 保证视频质量与流畅度,体验更佳:xAR 不仅在计算量上有优势,在视频质量和流畅度方面同样表现出色。它能生成连贯、自然的视频内容,避免卡顿、跳帧问题。生成人物动作视频时,xAR 能准确捕捉动作细节和连贯性,让动作自然流畅如同真实拍摄。这得益于噪声上下文学习,使模型在生成视频时能从自身可能出现的错误中恢复,大大提升了用户的使用体验,再次证明 xAR 好用且实用。

三、xAR 的技术原理是什么,有什么独特之处

(一)灵活的预测实体 X

  • xAR的核心创新在于将“下一个token预测”扩展为“下一个X预测”。这里的X是一个灵活实体,可以定义为:
    • 单个图像块(传统AR模式);
    • 单元格(Cell):将相邻的k×k图像块组合成一个语义更丰富的单元(如8×8块),增强局部上下文建模;
    • 子样本(Subsample):非局部采样,捕捉远距离依赖;
    • 多尺度(Scale):从粗到细的分层生成,逐步细化细节;
    • 整张图像:单步生成全部内容,类似流匹配(flow matching)方法[5][6]

    通过实验,单元格(8×8块)被证明是最优选择,因为它平衡了局部细节与语义信息,显著提升了生成质量

  • 基于 VAE 的连续潜变量转换:给定图像,xAR 利用现成的变分自编码器(VAE)将其转换为连续潜变量。与传统矢量量化变分自编码器(VQ – VAE)不同,xAR 避免了量化损失,保留更多图像细节信息。通过这种转换,xAR 能在连续潜变量空间操作,为构建灵活预测实体序列奠定基础。在此过程中,VAE 学习图像潜在特征表示,让 xAR 基于特征更有效地生成图像,这一技术路径在同类模型中具有鲜明的独特性。

(二)噪声上下文学习

  • 避免教师强制的弊端:传统自回归模型训练依赖教师强制,输入真实标记稳定学习,但推理时难以从自身错误中恢复。xAR 通过噪声上下文学习,以有噪声实体作为训练条件,让模型学会在不完美信息下预测。在训练过程中,模型不再仅仅依赖完美的真实标记,而是学会处理带有噪声的输入。在推理阶段,即使生成结果存在小误差,也能凭借训练中学习到的噪声处理能力,继续生成合理的后续内容,有效缓解暴露偏差问题,这是 xAR 在技术原理上的一大创新与独特之处。
  • 流匹配方法的运用:在每个自回归步骤中,xAR 利用流匹配方法。该方法在连续潜变量空间,根据当前噪声实体和已生成部分,通过匹配流来预测下一个实体。流匹配方法使 xAR 能在复杂空间中找到最优预测路径,确保生成图像在整体上具有一致性和合理性。在生成特定风格图像时,流匹配方法根据已生成图像部分的风格特征和噪声实体,准确预测下一个实体特征,保持图像风格连贯性,进一步凸显了 xAR 技术原理的独特性。

(三)推理策略

  • 动态调整预测单元:在推理过程中,xAR 根据图像生成阶段动态调整预测单元。生成初期,关注图像大致结构和整体布局,优先使用较大尺度预测单元,如一个尺度或较大子样本,快速确定图像整体框架,减少计算量。随着生成过程推进,需要细化图像细节时,逐渐切换到小预测单元,如单个图像块标记或较小单元,精准刻画图像细节。在生成人物肖像时,开始以较大面部区域为单元确定五官大致位置,细化阶段以每个五官具体图像块为单元描绘细节,这种动态调整策略展现了 xAR 推理的独特灵活性。
  • 多步预测与优化:xAR 采用多步预测生成完整图像。每步预测中,模型根据当前预测结果和噪声上下文,预测下一个实体,并不断优化预测结果提高生成图像质量。在生成过程中,模型对已生成部分进行评估和反馈,调整后续预测策略,使生成图像整体更协调、自然。在生成风景图像时,生成部分山脉和河流后,模型根据已生成内容,优化后续天空、树木等部分的生成,确保整个风景场景和谐统一,多步预测与优化策略是 xAR 生成高质量图像的重要保障,也是其技术独特性的体现。

实验结果

在ImageNet-256和512基准测试中,xAR刷新了多项记录:

  • ImageNet-256:最大模型xAR-H(11亿参数)达到FID 1.24,超越之前的Diffusion和AR模型(如DiT-XL、REPA);
  • ImageNet-512:xAR-L以FID 1.70领先同类方法,生成图像细节更丰富)。

总体而言,xAR通过灵活实体定义和噪声鲁棒性训练,为自回归图像生成提供了更高效、高质量的解决方案。

四、xAR 的适用场景有哪些,在不同场景表现如何

(一)创意设计领域

  • 图像创作:对于设计师、插画师等创意工作者,xAR 是强大的创作辅助工具。在创作初期,可利用 xAR 快速生成不同风格和主题的图像草稿。由于 xAR 能以较少计算资源和快速速度生成图像,设计师在短时间内可获得大量创意灵感,筛选出符合需求的创意方向。确定大致创意后,用 xAR 生成高质量最终图像,其灵活预测单元和高质量生成能力满足设计师对图像细节和风格的高要求,帮助创作出更具创新性和吸引力的作品。在实际应用中,设计师反馈 xAR 极大提高了创作效率,丰富了创意实现的可能性,在图像创作场景表现卓越。
  • 视频制作:在视频制作行业,如广告片、电影、动画制作,对视频质量和制作效率要求严格。xAR 在视频生成方面的高效性和高质量特性使其成为理想选择。制作动画短片时,xAR 可快速生成流畅动画序列,减少制作时间和成本。制作特效场景时,xAR 能精准生成复杂视觉效果,提升视频视觉冲击力。xAR 还可与其他视频制作工具和技术结合,为创作者提供更多创作可能性。从实际项目案例来看,使用 xAR 的视频制作团队在作品质量和制作周期上都取得了明显优势,在视频制作场景表现出色。

(二)医疗领域

  • 医学影像分析:在医学领域,医学影像分析至关重要。xAR 可将传统 2D 医学影像转换为 3D 可视化模型,帮助医生直观理解患者病变部位。在分析肺部 CT 影像时,xAR 生成肺部 3D 模型,清晰展示肺部结构和病变情况,助力医生准确诊断疾病。xAR 灵活预测单元可根据不同医学影像特点,动态调整生成方式,提高影像分析准确性和效率。在临床实践中,医生们发现 xAR 辅助诊断能更精准地发现病变,为治疗方案制定提供有力支持,在医学影像分析场景发挥重要作用。
  • 手术规划与培训:外科手术中,精准手术规划和充分术前培训是提高手术成功率的关键。xAR 为医生提供沉浸式手术模拟环境,医生可在虚拟环境中进行手术操作练习,提前熟悉手术流程和可能出现的情况。在模拟心脏手术时,xAR 生成高度逼真的心脏 3D 模型,医生操作虚拟器械进行手术演练,其噪声上下文学习能力模拟手术中可能的不确定性,帮助医生更好应对实际手术突发情况,提高手术安全性和成功率。从手术培训效果来看,使用 xAR 培训的医生在实际手术中操作更熟练、应对突发状况更从容,在手术规划与培训场景成效显著。

(三)教育领域

  • 虚拟教学场景创建:在教育中,为学生创造生动、直观的学习环境可提高学习效果。xAR 生成各种虚拟教学场景,在历史课上创建古代城市虚拟场景,让学生穿越时空感受历史氛围;在地理课上生成逼真地理地貌模型,帮助学生理解地理知识。xAR 高效生成能力使教师能根据教学内容快速创建不同虚拟场景,丰富教学资源,提高学生学习兴趣和参与度。在实际教学应用中,学生对基于 xAR 的虚拟教学场景表现出浓厚兴趣,学习积极性和知识掌握程度都有明显提升,在虚拟教学场景创建方面效果良好。
  • 个性化学习辅助:每个学生学习进度和方式不同,xAR 可根据学生学习情况和需求,生成个性化学习内容。在数学学习中,学生对某个几何图形理解困难时,xAR 生成针对该图形的动态演示和练习题目,帮助学生掌握知识。xAR 灵活预测单元可根据学生反馈和学习数据,调整生成内容难度和形式,为学生提供更贴合需求的学习辅助。从学生学习反馈来看,xAR 提供的个性化学习内容更符合他们的学习节奏,有助于提升学习效果,在个性化学习辅助场景发挥积极作用。

(四)其他潜在应用领域

  • 游戏开发:在游戏开发中,xAR 可用于生成高质量游戏场景和角色。由于 xAR 能快速生成复杂图像和视频内容,游戏开发者可利用它快速创建游戏原型,测试游戏玩法和视觉效果。在开发开放世界游戏时,xAR 迅速生成游戏中的地形、建筑等场景,为游戏开发节省大量时间和成本。xAR 还可根据玩家行为和游戏进程,实时生成动态游戏内容,提升游戏趣味性和互动性。从游戏开发项目实践来看,采用 xAR 技术的游戏在开发周期和游戏品质上都有明显提升,在游戏开发领域具有广阔应用前景。
  • 虚拟现实(VR)/ 增强现实(AR)体验优化:xAR 技术优势可提升 VR/AR 体验质量。在 VR/AR 应用中,图像和视频质量及流畅度直接影响用户沉浸感。xAR 生成高质量、流畅虚拟内容,并根据用户实时位置和动作,快速调整生成内容,实现虚拟与现实无缝融合。在 AR 导航应用中,xAR 根据用户位置和方向,实时生成准确导航指示和周边环境信息,为用户提供更便捷、直观的导航体验。从用户体验反馈来看,基于 xAR 优化的 VR/AR 应用在沉浸感和交互性上表现更出色,在 VR/AR 体验优化领域潜力巨大。
© 版权声明

相关文章

暂无评论

Avatar photo
暂无评论...