
本文第一作家郝一鸣,香港中语大学(深圳)GAP-Lab 在读博士生。本文共同第一作家为许牧天,于香港中语大学(深圳)取得博士学位。导师韩晓光素养,为本文通信作家。
在个性化视觉生成的现实应用中,通用视觉基础模子的发达时时难以温顺精确需求。为齐全高度定制化的生成恶果,时时需对大模子进行针对性的自顺应微调,但刻下以 LoRA 为代表的主流方法,仍受限于定制化数据网罗与冗长的优化经过,耗时耗力,难以在的确场景中无为应用。
为此,港中大(深圳)GAP-Lab 淡漠全新框架 LoFA,从上重塑个性化视觉生成的本事旅途。该框架不详在数秒内把柄用户指示前馈式直出对应的 LoRA 参数,使大模子快速适配到个性化任务中 —— 无需漫长优化,恶果却比好意思以致杰出传统 LoRA,信得过鼓吹大模子适配参预 “即时赢得” 的新时间。

论文称号:LoFA: Learning to Predict Personalized Priors for Fast Adaptation of Visual Generative Models

配景与挑战

图 1. LoFA 见解图:与传统 LoRA 的对比
频年来,创意媒体和视觉内容的需求捏续增长,这鼓吹了功能弘大的视觉生成基础模子的发展。这类模子通过大范围图像或视频数据集历练,展现出丰富的才能与通用的先验常识。可是,面对用户的个性化需求 —— 尤其是触及细粒度指示时,模子时时难以生玉成齐适应用户盼愿的末端(如图 1 “WAN” 所示,文本到视频基础模子 WAN 在认知 “别称须眉正在作念功夫侧踢” 这类具体动作指示时发达欠安)。
为处分这一问题,早期征询时时采用 parameter-efficient fine-tuning (PEFT) 本事,通过融入个性化先验常识来调理模子。但这些方法需要为每个个性化任务单独优化适配器(举例 LoRA),不仅依赖特定任务数据,还需大量优化时候(见图 1 “Classical LoRA” 示例),难以温顺现实应用顶用户对快速反馈新需求的要求。
为齐全快速适配,近期一丝征询尝试在测试阶段径直预测 LoRA 权重。举例,HyperDreamBooth 淡漠了基于 hypernetwork 的方法,但仍需独特的后优化法子;DiffLoRA 则在此基础上全齐取消了后优化过程。可是,这一征询主见濒临一个根人性挑战:模子必须学习从低维细粒度用户指示到高维复杂 LoRA 参数分散的复杂映射干系。
正因如斯,现存方法现在仅在图像生成中针对主体身份个性化这类相对受限的场景中得到考证。这一局限可动力于这些方法将 LoRA 权重压缩至低维空间当作超汇集输出,弗成幸免地形成信息亏本并罢休模子抒发才能。因此,怎么齐万不详灵验处理细粒度用户指示或高维复杂 LoRA 权重的快速模子适配方法 —— 这对面向用户的现实应用至关辛勤 —— 仍然是视觉生成范围一个亟待探索的征询难题。
为弥补这一空缺,本论文淡漠了 LoFA—— 一种通用的学习框架,不详从种种化或细粒度的用户指示中径直预测个性化 LoRA 参数,齐全视觉生成模子的快速适配(见图 1 “LoFA” 部分)。
中枢方法先容

图 2. LoRA 反馈图谱的可视化:特有的结构化分散
LoFA 的中枢念念路是在 hypernetwork 的研讨中镶嵌一种新式提醒机制,使其不详径直从用户指示中预测圆善且未经压缩的 LoRA 权重,而无需依赖有损压缩本事。为齐全这一目的,作家最初发现了 LoRA 的一个重要特色 —— 反馈图谱。该图谱呈现为个性化 LoRA 权重与原始模子参数间相对变化所形成的特有结构化方法,不详灵验捕捉用户指示的中枢影响(可视化末端见图 2,具体分析见论文)。

图 3. LoFA 的经过:反馈图谱提醒的两阶段学习框架
基于这一发现,论文研讨了一种全新架构(如图 3),甩掉了径直进行 “指示 - LoRA 权重” 的暴力映射神气。该架构以原始基础模子权重当作输入,通过交叉注意力机制会通用户指示,从而学习相对适配干系。总计这个词学习过程进一步诀别为两个阶段:汇集最初预测反馈图谱(其维度远低于 LoRA 权重且结构更陋劣),随后利用习得的响须常识提醒最终的 LoRA 权重预测,使其不详识别并聚焦重要适配区域,从而简化学习过程并进步踏实性。
通过这种结构化反馈提醒的研讨,汇集不详学习基础模子与目的 LoRA 之间的相对适配干系,同期预测具备圆善抒发才能的、未经压缩的 LoRA 权重。
实验分析
论文通过系统性的实验评估 LoFA 框架在视频与图像生成任务中的灵验性。为全面考证其处理种种化指示要求的泛化才能,论文在三个重要应用场景中测试了多种输入模态:
在视频生成任务中,以 WAN2.1-1.3B 为基础模子,要点评估两方面应用:
(1)基于文本或畅通姿态的个性化东谈主体动作视频生成,该任务针对视频数据的中枢属性 —— 动态畅通的个性化建模,具有显贵挑战性;
(2)以格调图像为参考的文本到视频格调化,此为视频剪辑范围的经典任务。
在图像生成任务中,采用 Stable Diffusion XL 当作基础模子,评估(3)ID 个性化图像生成 —— 这亦然先前筹议征询唯独撑捏的应用场景。
LoFA 不仅在性能上显贵杰出基线决议,更达到了与零丁优化的 LoRA 模子相比好意思 —— 且在多类场景中发达更优的恶果,这证据了快速模子适配在现实应用中的可行性。总计末端如下:

图 4. 基于文本的个性化东谈主体动作视频生成末端对比

图 5. 基于畅通姿态的个性化东谈主体动作视频生成末端对比

图 6. 以格调图像为参考的文本到视频格调化

图 7. ID 个性化的图像生成
记忆与预测
LoFA 龙套了现存个性化本事的重要局限 —— 在保捏高质地生成末端的同期,透彻甩掉了冗长的优化过程。大量实验标明,LoFA 取得了与逐例优化的 LoRA 模子尽头以致更优的性能,同期将适配时候从数小时裁减至秒级。这一进展为高效模子适配建造了新的范式,有望鼓吹种种及时个性化应用的发展。可是,刻下 LoFA 仍需要针对不同范围的特定指示(如东谈主体动作指示、身份特征指示或艺术格调指示)分别历练零丁汇集。遐想的处分决议应是构建具备弘大 zero-shot 才能的 unified hypernetwork。通过扩大历练数据的范围与种种性,这一目的将来将有望齐全。


