张庆双答辩 - 基于稳定扩散模型生成面部照片的方法研究

01. 研究背景与科学问题

语义对齐不准

传统扩散模型在处理长文本描述时，难以精准捕捉深层语义，导致生成的图像与描述不匹配。文本提示在推理阶段易产生语义偏差，生成结果与输入条件不一致。

几何细节缺失

现有方法在处理多模态信息融合时，缺乏对边缘、法线等几何条件的精细化建模，图像结构完整性不足，生成图像在细节和结构一致性方面存在不足。

特征融合死板

传统特征融合采用固定权重机制，无法动态适应复杂的语义结构（如修饰词-实体关系），难以根据不同区域自适应调整各模态信息的贡献。

02 / 20

02. 国内外研究现状

人脸生成算法

GAN时代：DCGAN、Pix2Pix、CycleGAN等通过对抗训练提升视觉逼真度，但存在模式崩塌与训练不稳定问题。

扩散模型时代：DDPM、Stable Diffusion通过逐步去噪生成高质量图像，在质量与多样性上达成良好平衡，成为主流方法。

扩散模型在生成领域的应用

文本引导：自回归模型、GAN、扩散模型三类方法对比，扩散模型在质量与多样性上最优。

多模态引导：参考图像引导、语义布局控制、特征注入融合、空间结构约束四类方法各有优劣。

图2.5 主题驱动生成

图2.6 T2I-Adapter可控生成

图2.7 ControlNet核心架构图

现有方法局限：参考图像引导依赖性强、多属性灵活性有限；语义布局方法对精细结构建模有限；特征注入方法空间约束能力有限；空间结构约束方法对条件质量敏感。→ 需要更有效的多模态融合与注意力优化机制。

03 / 20

03. 相关理论与技术基础

扩散模型原理

扩散模型包含前向加噪和反向去噪两个过程，通过马尔可夫链框架逐步学习从噪声中恢复数据分布。

• 前向过程：逐步添加高斯噪声直至变为纯噪声

• 反向过程：学习去噪网络，逐步恢复原始数据

Stable Diffusion 架构

核心创新：在潜在空间而非像素空间执行扩散过程，大幅提升计算效率。

• VAE：编码器压缩图像，解码器还原结果

• U-Net：在潜在空间中进行噪声预测与去噪

• CLIP：将文本映射为条件嵌入引导生成

ControlNet 控制机制

通过引入旁路控制网络实现精细化结构控制，冻结预训练参数的同时学习额外条件信号。

• 复制解码器结构构建并行辅助通路

• 零卷积：初始权重为零，逐步学习控制能力

保证训练初期不对主干模型产生干扰。

图2.7 ControlNet原理图

04 / 20

04. 核心研究内容

内容一：BAM — 分层注意力调控

引入结构化语义先验，利用依存句法解析技术提取关键语义单元，将其映射至分层注意力策略中。通过解析提示词句法结构，对注意力权重进行动态重分配，实现关键语义区域的自适应增强。

内容二：FIGEN-Diffusion — 多分支条件建模

融合边缘和法线辅助信息，构建轻量级门控机制自适应调整分支权重，增强结构控制力。基于ControlNet框架，引入边缘图与法线图作为互补的几何先验信息，实现对人脸2D轮廓与3D结构的联合建模。

内容三：精细化生成机制

基于语义先验与多分支融合，解决语义偏移问题，提升人脸关键特征区域的生成精度。空间自适应门控融合机制通过轻量网络生成多模态空间权重，根据不同区域自适应各模态信息的贡献。

05 / 20

05. BAM 算法框架详解

BAM（Balance Attention Map）不改变扩散模型主体结构，作为外部调控机制嵌入到交叉注意力计算中，对语义信息的传递进行干预。

图3.1 BAM方法总体框架图

输入文本提示词

→

依存句法解析

→

语义分组

→

分层注意力调节

→

生成人脸图像

独立实体

Min-Max归一化增强主体响应，抑制背景噪声

修饰词-实体

Sigmoid非线性映射强化属性与实体之间的语义绑定

复合实体

线性缩放策略平衡多实体注意力分配

06 / 20

06. BAM 距离优化机制

针对传统KL散度在面部生成中的局限性（倾向于拟合高概率区域，忽略低概率但关键的修饰语信息），BAM采用余弦相似度 + 欧氏距离的混合距离度量，同时实现方向与位置的对齐约束。

D(A₁, A₂) = [1 - cos(A₁, A₂)] + 0.5 × ||A₁ - A₂||₂

• 余弦相似度约束属性与实体特征的方向一致性
• L2距离控制特征尺度，防止语义偏移
• λ = 0.5 平衡方向与幅值两个层面的优化

损失函数构成

L = L_pos + L_neg

正向损失 L_pos：最大化修饰语与对应实体名词注意力图的重叠度
负向损失 L_neg：增加修饰语-实体对与无关词汇的距离，抑制错误属性关联

图3.5 距离优化方法示意图— 含令牌级注意力、成对距离计算、总体目标函数

令牌级注意力提取

→

语义距离计算

→

距离损失

→

反向传播

07 / 20

数据集	规模	文本类型	构建方法
CelebA-3k	3000条	属性短语	基于CelebA图像+属性标签生成
FFHQ-3k	3000条	属性短语	基于FFHQ图像+BLIP描述生成
FacePrompt-3k	3000条	自然语句	大语言模型语义拓展+句式改造

08. BAM 模块实验结果

数据集	模型	IS (↑)	CLIP Score (↑)	TIFA (↑)
CelebA-3k	BAM(ours)	8.65	18.94	1.18
	SynGen	8.53	18.53	1.17
	A&E	8.65	18.71	1.15
	D&B	8.68	18.34	1.17
FFHQ-3k	BAM(ours)	12.61	18.85	1.16
	SynGen	12.64	18.08	1.17
	A&E	11.56	18.26	1.13
	D&B	12.57	17.88	1.15
FacePrompt-3k	BAM(ours)	9.34	19.36	1.18
	SynGen	9.53	18.44	1.17
	A&E	9.20	18.25	1.13
	D&B	10.07	18.13	1.14

+2.21%

CelebA-3k 语义一致性提升

+4.26%

FFHQ-3k 语义一致性提升

+4.98%

FacePrompt-3k 语义一致性提升

09 / 20

09. BAM 消融实验

表 3.4 BAM 核心模块消融研究结果

BAM_L：仅使用分层注意力；BAM_D：仅使用距离度量；BAM：完整模型

数据集	模型	IS	CLIP Score	TIFA
CelebA-3k	BAM_L	8.35	18.72	1.18
	BAM_D	8.23	18.69	1.17
	BAM	8.65	18.94	1.18
FFHQ-3k	BAM_L	12.44	18.38	1.17
	BAM_D	11.62	17.49	1.16
	BAM	12.61	18.85	1.17
FacePrompt-3k	BAM_L	9.95	18.34	1.15
	BAM_D	9.83	18.12	1.14
	BAM	9.34	19.36	1.18

结论：完整BAM模型在所有数据集上CLIP分数最优，证明分层注意力与距离度量协同有效

结论：三种注意力策略协同效果优于单独使用；混合距离度量相比传统KL散度，在语义一致性指标上有显著提升。

10 / 20

10. FIGEN-Diffusion 技术路线

通过引入 2D边缘 + 3D法线 的联合建模，增强模型对图像几何特征和细节纹理的保留能力：

图4.1 FIGEN-Diffusion 总体架构图 — 含双分支ControlNet、门控融合、U-Net注入

输入图像

→

Canny边缘检测

NormalBAE法线图

→

双分支ControlNet

→

门控融合

→

生成结果

🔶 边缘分支：捕捉2D结构轮廓信息，约束全局空间布局
🔶 法线分支：提供3D光影信息，增强局部几何细节与表面特性
🔶 空间自适应门控：通过轻量网络生成像素级权重图，动态选择更合适的结构先验来源
🔶 零卷积连接：初始权重为零，保证训练初期不干扰主干模型

11 / 20

11. 空间自适应门控融合机制

图4.3 双分支空间自适应门控融合模块结构图 — 含边缘/法线特征、卷积投影、门控网络、加权融合

融合策略设计

在第 i 个尺度上，边缘特征 F_eⁱ 与法线特征 F_nⁱ 经过拼接输入门控网络，生成空间自适应权重图 α_eⁱ 和 α_nⁱ，对投影后的双分支特征进行逐元素加权求和，得到融合特征 F_mⁱ，并注入U-Net对应层级。

F_mⁱ = α_eⁱ × P_e(F_eⁱ) + α_nⁱ × P_n(F_nⁱ)

权重熵正则

为防止某一模态长期主导，训练阶段引入权重熵正则项，对门控权重分布加以约束，确保边缘与法线模态均能有效参与优化。

L_total = L_diff + λ_reg × L_reg

• L_diff：标准噪声预测均方误差损失
• L_reg：门控权重熵正则损失，鼓励均衡的模态分配
• λ_reg：正则项权重系数，平衡重建目标与门控约束

12 / 20

12. FIGEN-Diffusion 实验设置

实验环境

环境	名称	配置
硬件	GPU	NVIDIA RTX 3090
	CUDA	12.4
软件	Python	3.8.5
	PyTorch	1.12.1
	Diffusers	0.19.0
	Transformers	4.30.2

训练参数

• 图像分辨率：512 × 512
• 优化器：AdamW，学习率 1e-5，权重衰减 1e-2
• 批大小：8，训练 100 epoch
• 训练周期：约 5天（RTX 3090）
• 单张推理时间：24.2秒
• 参数量增量：仅 +2%（vs 单条件ControlNet）
• 推理延迟增量：< 5%
• DDIM采样 50步，CFG = 7.5

13 / 20

13. FIGEN-Diffusion 定量评估

CelebA 基准

模型	FID↓	IS↑	CLIP↑	PSNR↑	SSIM↑
Stable Diffusion	42.16	8.12	18.35	17.82	0.495
DreamShaper	34.57	8.75	18.72	18.65	0.521
Anything-v3.0	33.23	9.02	18.95	19.10	0.536
ControlNet	29.82	9.68	19.15	19.75	0.552
T2I-Adapter	29.55	9.85	19.42	20.15	0.568
InstantID	28.91	10.05	19.31	21.45	0.612
FIGEN (Ours)	27.85	10.12	19.88	21.80	0.628

CLIP Score较T2I-Adapter提升 +2.37%

FFHQ 基准

模型	FID↓	IS↑	CLIP↑	PSNR↑	SSIM↑
Stable Diffusion	39.69	8.35	18.48	18.05	0.501
DreamShaper	32.42	8.92	18.85	18.87	0.527
Anything-v3.0	31.13	9.15	19.17	19.33	0.543
ControlNet	28.31	9.78	19.32	20.15	0.561
T2I-Adapter	28.14	9.95	19.65	20.55	0.573
InstantID	27.85	10.20	19.51	21.80	0.625
FIGEN (Ours)	27.11	10.28	19.95	22.15	0.638

CLIP Score较T2I-Adapter提升 +1.53%

14 / 20

15. FIGEN 消融实验

图4.8 不同方法在CelebA和FFHQ数据集上的CLIP Score对比结果

CelebA 数据集

模型	Edge	Normal	FID↓	IS↑	CLIP↑	SSIM↑
Baseline	✕	✕	29.81	9.68	19.15	0.552
Edge only	✓	✕	28.65	9.82	19.36	0.581
Normal only	✕	✓	28.40	9.75	19.48	0.596
FIGEN	✓	✓	27.85	10.12	19.88	0.628

FFHQ 数据集

模型	Edge	Normal	FID↓	IS↑	CLIP↑	SSIM↑
Baseline	✕	✕	28.32	9.78	19.32	0.561
Edge only	✓	✕	27.67	9.92	19.55	0.586
Normal only	✕	✓	27.35	9.88	19.62	0.603
FIGEN	✓	✓	27.13	10.28	19.95	0.638

边缘图：有效约束人脸整体结构轮廓，提升空间一致性与结构清晰度，但对语义对齐增强有限
法线图：刻画面部细节、光照变化及几何表面特性更强，PSNR/SSIM提升更显著
两者结合：边缘提供全局结构引导，法线增强局部几何细节，协同作用在所有指标上取得最优 → 验证了多模态条件融合策略的有效性

16 / 20

16. 定性分析与对比 — 基准模型对比

图4.6 基准模型在人脸生成任务中的视觉对比分析 — 含参考图像、SD、DreamShaper、Anything-v3、ControlNet、T2I、InstantID对比

基线方法不足

Stable Diffusion：缺乏结构约束，面部几何畸变明显
ControlNet：遵循边缘轮廓较好，但单一模块控制，局部异常、光照不一致、面部僵硬
T2I-Adapter / InstantID：高度依赖参考图身份保持，牺牲文本响应能力，语义冲突

FIGEN-Diffusion 优势

结构完整：眼睛、鼻子与嘴部空间关系协调，无明显几何畸变
纹理丰富：皮肤质感、光照过渡及局部阴影关系自然
语义对齐：较好响应文本条件约束，属性映射有效
多模态融合：维持基础结构约束，轮廓与姿态稳定性好

17 / 20

17. 面部照片生成平台

系统架构

将BAM和FIGEN-Diffusion两种算法有效集成，开发面向个性化人脸生成的系统，按照模块化理念设计，保障可扩展性和高效性。

图5.5 面部照片生成平台系统界面截图

用户界面层

→

API服务层

→

模型推理层

→

数据存储层

性能测试结果（RTX 4090）

模式	分辨率	推理时延	显存占用
文本驱动生成	512×512	~106.8s	~9.6GB
条件控制生成	512×512	~138.9s	~11.2GB

• 5并发用户可稳定响应
• 10并发用户通过异步队列调度维持服务可用
• 安全测试：权限隔离、SQL注入防护、文件上传限制、接口流量控制均通过

19 / 20

18. 结论与未来展望

主要贡献

（1）BAM模块：在CelebA-3k和FFHQ-3k上语义一致性分别提升2.21%和4.26%，FacePrompt-3k提升4.98%
（2）FIGEN-Diffusion：融合边缘与法线多模态条件，CLIP Score分别提升2.37%和1.53%
（3）轻量级门控机制：仅+2%参数量、<5%推理延迟，实现空间位置感知的自适应权重调节

研究不足

（1）大角度姿态变化时边缘和法线融合可能出现特征错位
（2）复杂语义叠加下属性解耦不彻底，局部五官边缘偶发轻微模糊
（3）光照条件变化较大时亮度分布不够严格
（4）主要针对人脸任务，通用复杂场景泛化能力待验证

未来展望

（1）搭建多模态条件融合的弱耦合体系，增强复杂条件适应能力
（2）引入强化学习奖励策略，动态调整生成关注范围
（3）纳入物理渲染损失函数与对抗训练，提升光照真实感
（4）推广至通用图像生成任务，提升跨领域实用性

20 / 20

19. 盲审专家意见与修改说明

81分专家一评阅意见修改说明

意见(1)

建议在第三章、第四章加入对比表，明确说明新增工作点和已有工作的不同之处。

→ 修改：新增表3.5和表4.6，明确自身方法与已有方法的差异。

意见(2)

建议补充说明参考图像来源、是否逐样本配对、结构条件图来源，以及为何可使用像素级指标。

→ 修改：在4.3.3评估指标部分新增PSNR和SSIM适用性说明。

意见(3)

论文对比方法在训练数据、模型规模、是否微调、输入条件和身份约束机制不完全一致，建议补充统一实验设置。

→ 修改：在4.3实验设置部分补充了统一实验条件细节。

意见(4)

第5章系统测试缺少量化指标，建议增加推理时间、吞吐量、显存占用、失败率、队列等待时间、移动端响应时间及BAM/FIGEN性能对比。

→ 修改：第五章5.4新增性能量化对比表，完善测试指标。

85分专家二评阅意见修改说明