Make U-Nets Great Again!北大&华为提出扩散架构U-DiT
佚名
2024-11-16 23:00:34
0

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作,DiT 模型抛弃了传统的 U-Net 扩散架构,转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众,后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。

然而令人感到不解的是,U-Net 结构是之前最常用的扩散架构,在图像空间和隐空间的生成效果均表现不俗;可以说 U-Net 的 inductive bias 在扩散任务上已被广泛证实是有效的。因此,北大和华为的研究者们产生了一个疑问:能否重新拾起 U-Net,将 U-Net 架构和 Transformer 有机结合,使扩散模型效果更上一层楼?带着这个问题,他们提出了基于 U-Net 的 DiT 架构 U-DiT。

从一个小实验谈开去

首先,研究者开展了一个小实验,在实验中尝试着将 U-Net 和 DiT 模块简单结合。然而,如表 1 所示,在相似的算力比较下,U-Net 的 DiT(DiT-UNet)仅仅比原始的 DiT 有略微的提升。

在图 3 中,作者们展示了从原始的直筒 DiT 模型一步步演化到 U-DiT 模型的过程。

根据先前的工作,在扩散中 U-Net 的主干结构特征图主要为低频信号。由于全局自注意力运算机制需要消耗大量算力,在 U-Net 的主干自注意力架构中可能存在冗余。这时作者注意到,简单的下采样可以自然地滤除噪声较多的高频,强调信息充沛的低频。既然如此,是否可以通过下采样来消除对特征图自注意力中的冗余?

Token 下采样后的自注意力

由此,作者提出了下采样自注意力机制。在自注意力之前,首先需将特征图进行 2 倍下采样。为避免重要信息的损失,生成了四个维度完全相同的下采样图,以确保下采样前后的特征总维度相同。随后,在四个特征图上使用共用的 QKV 映射,并分别独立进行自注意力运算。最后,将四个 2 倍下采样的特征图重新融为一个完整特征图。和传统的全局自注意力相比,下采样自注意力可以使得自注意力所需算力降低 3/4。

令人惊讶的是,尽管加入下采样操作之后能够显著模型降低所需算力,但是却反而能获得比原来更好的效果(表 1)。

U-DiT:全面超越 DiT

根据此发现,作者提出了基于下采样自注意力机制的 U 型扩散模型 U-DiT。对标 DiT 系列模型的算力,作者提出了三个 U-DiT 模型版本(S/B/L)。在完全相同的训练超参设定下,U-DiT 在 ImageNet 生成任务上取得了令人惊讶的生成效果。其中,U-DiT-L 在 400K 训练迭代下的表现比直筒型 DiT-XL 模型高约 10 FID,U-DiT-S/B 模型比同级直筒型 DiT 模型高约 30 FID;U-DiT-B 模型只需 DiT-XL/2 六分之一的算力便可达到更好的效果(表 2、图 1)。

在有条件生成任务(表 3)和大图(512*512)生成任务(表 5)上,U-DiT 模型相比于 DiT 模型的优势同样非常明显。

研究者们还进一步延长了训练的迭代次数,发现 U-DiT-L 在 600K 迭代时便能优于 DiT 在 7M 迭代时的无条件生成效果(表 4、图 2)。

U-DiT 模型的生成效果非常出众,在 1M 次迭代下的有条件生成效果已经非常真实。

论文已被 NeurIPS 2024 接收,更多内容,请参考原论文。

相关内容

2025上海车展:全球汽车...
第二十一届上海国际汽车工业展览会(以下简称:2025上海车展)将于...
2025-04-23 22:03:39
2025年4月23日至5月...
第二十一届上海国际汽车工业展览会(以下简称:2025上海车展)将于...
2025-04-13 22:11:49
2024山东展览业规模全国...
展览业作为现代服务业中的战略先导产业和重要支柱产业,是构建现代市场...
2025-04-09 09:18:17
3月31日CISILE 2...
3月31日,第二十二届中国国际科学仪器及实验室装备展览会(CISI...
2025-04-03 08:15:09
第二十二届中国国际科学仪器...
3月31日上午,第二十二届中国国际科学仪器及实验室装备展览会(CI...
2025-04-02 09:21:44
3月31日开幕的CISIL...
中国网3月31日讯 3月31日上午,第二十二届中国国际科学仪器及实...
2025-04-01 08:13:22

热门资讯

刚刚,OpenAI首个智能体提... 刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师,编程,工程师,智能体...
靠七天无理由退货赚了200万?... 漏洞不是随便钻的。
英国首相为“AI 校园”揭幕:... IT之家 11 月 28 日消息,据路透社报道,当地时间 27 日,英国首相基尔・斯塔默(Keir ...
96GB大容量,芝奇推出DDR... 该套装将于2025年第一季度在全球各地陆续开售。
中国改变全球创新药估值!生物技... 中国改变全球创新药估值!生物技术的“DeepSeek时刻”已来,中国,医药,制药,创新药,生物技术,...
谷歌Pixel 9a手机渲染图... IT之家 2 月 10 日消息,爆料人士 Evan Blass 曝光了谷歌 Pixel 9a 的渲染...
国产雷克萨斯终于来了,但我怀疑... 国产的雷克萨斯电车,不可能再给你玩加价那一套了
连雷军都在劝你学AI,但这课我... 连雷军都在劝你学AI,但这课我劝你别买。。。,雷军,宇宙,编程,电脑,李飞飞,人工智能
一文看懂索尼、三星、豪威的各种... 1,三大厂家名词统一首先,“双原生ISO”这个词最先在手机端出现,还得追溯至绿厂 Find X2 P...
华米 Ov 们把手机电池搞得大... 话说,今年的国产旗舰手机,有一个特质很突出 —— 电池容量大。除了少数几款标准版机型,大多新机的电池...