一、FlexiDiT简介
FlexiDiT(Flexible Denoising Transformers)是由 Meta 提出的一种新型高效框架,旨在优化扩散模型在图像和视频生成等任务中的计算效率。扩散模型通过逐步去噪来生成样本,而 FlexiDiT 通过动态调整去噪步骤中的计算资源分配,使得在不同的计算预算下,模型都能生成高质量的样本。这一框架通过对预训练的扩散 Transformer(DiT)进行小幅架构调整,实现了在保持生成质量的同时,大幅减少浮点运算次数(FLOPs)。
当前AIGC领域,扩散模型(Diffusion Model)凭借生成质量优势成为主流技术,但其迭代式去噪过程带来巨大计算开销。以Stable Diffusion为代表的模型单次生成需数十秒,视频生成更需数小时,严重制约商业化落地。Meta研究发现,传统模型在每一步去噪时均采用固定计算量,而早期步骤处理低频信息时存在资源浪费——这正是FlexiDiT诞生的突破口。

二、FlexiDiT 主要功能
(一)图像生成
- 高质量样本生成:在基于类条件(class – conditioned)和文本条件(text – conditioned)的图像生成任务中,FlexiDiT 展现出了强大的能力。它能够在减少超过 40% 计算量(FLOPs)的情况下,生成与传统模型质量相当的样本。这意味着在资源有限的情况下,用户依然可以获得高质量的图像输出。例如,在生成 256×256 的图像时,使用 250 步去噪,FlexiDiT 生成图像的质量(FID 指标)与传统 DiTs 几乎一致,但其计算量却大幅降低。
- 高分辨率图像支持:对于生成高分辨率图像,如 1024×1024 的图像,FlexiDiT 同样表现出色。它能够在保持高质量生成效果的同时,显著减少计算量。与传统 DiTs 可能需要顶级 GPU 花费较长时间计算不同,FlexiDiT 利用普通设备就能更高效地完成任务,大大提升了高分辨率图像生成的效率。
(二)视频生成
- 视频生成:在文本到视频(T2V)的任务中,FlexiDiT 更是取得了令人瞩目的成果。它能够将计算量减少高达 75%,且生成的视频性能几乎没有下降。无论是视频中流畅的动作呈现,还是细腻的背景刻画,FlexiDiT 都能完美演绎。这对于视频生成领域来说,无疑是一个重大突破,极大地降低了视频生成的成本,让更多创作者能够以较低的资源投入生成高质量的视频内容。
(三)多模态兼容性
该方法适用于图像生成(类别条件、文本条件)、视频生成等多种任务。例如在视频生成中,通过调整时空patch大小(如将时间维度patch从1帧扩展到2帧),计算量减少75%的同时保持生成质量。
(四)无需重新训练
通过对预训练模型进行轻量级微调(训练成本不到原模型5%),使其支持多patch尺寸处理,且保留原模型的生成能力。例如,对预训练DiT-XL/2模型微调后,既能处理小patch(高计算模式),也能处理大patch(低计算模式)。
功能维度 | 传统DiT模型 | FlexiDiT突破 |
---|---|---|
计算效率 | 固定FLOPs/step | 动态FLOPs分配,视频生成节省75%算力 |
硬件适配 | 单一计算模式 | 分级计算策略,支持从云端GPU到移动端NPU |
多模态支持 | 专模专用 | 统一架构兼容图像/视频/3D生成 |
模型复用 | 需重新训练 | 5%微调成本即可升级现有模型 |
三、FlexiDiT关键技术原理
动态Patch调整机制
在token化阶段引入可扩展的嵌入层,通过双线性插值投影矩阵将预训练权重适配到不同patch尺寸。例如,将原patch=2的卷积核权重投影到patch=4,同时添加patch尺寸嵌入(patch size embedding)帮助模型区分输入模式。
参数高效微调
- 参数共享模式:当训练数据可访问时,通过添加<0.005%的额外参数(如新的归一化层)实现多patch兼容。
- LoRA适配模式:在无法修改原模型时,为每个新patch尺寸添加独立的低秩适配器(LoRA),冻结原参数仅训练适配器,计算开销增加小于5%。
智能推理调度
设计两阶段调度策略:前T_weak步使用大patch(弱计算模式),后T-T_weak步切换回小patch(强计算模式)。例如在图像生成中,前60%步骤使用patch=4,后40%使用patch=2,整体计算量减少40%以上。
引导信号优化
在条件生成(如文本引导)中,使用弱模型生成无条件预测作为引导信号,配合强模型的条件预测,提升生成质量。该方法无需额外训练无条件模型,在相同计算量下获得更好的CLIP评分。
四、FlexiDiT的项目地址
- arXiv技术论文:arxiv.org/pdf/2502.20126
五、FlexiDiT行业应用前景展望
- 实时视频生成:在8秒短视频生成场景,FlexiDiT可将单视频生成耗时从45分钟压缩至12分钟,满足直播带货等实时需求。
- 边缘端AIGC:配合模型量化技术,使Stable Diffusion级模型可在骁龙8 Gen3移动平台实现15秒出图。
- 工业级内容生产:广告行业测试显示,批量生成1000张电商图可降低60%云计算成本。
- 科研创新平台:为3D分子生成、流体仿真等计算密集型任务提供新范式,ETH Zurich已将其用于蛋白质结构预测。
六、FlexiDiT技术局限性及发展建议
当前FlexiDiT在极端尺寸(如1×1分块)下仍存在约3%的质量损失,建议开发者:
- 建立分块尺寸与时间步的动态映射表,通过强化学习优化分配策略。
- 开发混合精度计算模块,对高频区域采用FP16,低频区域使用INT8。
- 结合腾讯自研的AngelNLP框架,探索文本条件与分块尺寸的联合优化。
结语
FlexiDiT不仅是一项技术创新,更是对生成式AI计算范式的重新定义。随着腾讯AI Lab等团队持续推进技术迭代,预计2024年底将出现支持16种动态分块模式的商用版本,推动AIGC应用进入「效率革命」新纪元。