河北地质大学校徽

DEFENSE PRESENTATION

基于稳定扩散模型生成面部照片的方法研究

Research on Methods for Generating Facial Photographs Based on Stable Diffusion Models

答辩人:张庆双
指导老师:李焕哲
日期:2026.05.20
学校:河北地质大学
01 / 20

01. 研究背景与科学问题

语义对齐不准

传统扩散模型在处理长文本描述时,难以精准捕捉深层语义,导致生成的图像与描述不匹配。文本提示在推理阶段易产生语义偏差,生成结果与输入条件不一致。

几何细节缺失

现有方法在处理多模态信息融合时,缺乏对边缘、法线等几何条件的精细化建模,图像结构完整性不足,生成图像在细节和结构一致性方面存在不足。

特征融合死板

传统特征融合采用固定权重机制,无法动态适应复杂的语义结构(如修饰词-实体关系),难以根据不同区域自适应调整各模态信息的贡献。

02 / 20

02. 国内外研究现状

人脸生成算法

GAN时代:DCGAN、Pix2Pix、CycleGAN等通过对抗训练提升视觉逼真度,但存在模式崩塌与训练不稳定问题。

扩散模型时代:DDPM、Stable Diffusion通过逐步去噪生成高质量图像,在质量与多样性上达成良好平衡,成为主流方法。

扩散模型在生成领域的应用

文本引导:自回归模型、GAN、扩散模型三类方法对比,扩散模型在质量与多样性上最优。

多模态引导:参考图像引导、语义布局控制、特征注入融合、空间结构约束四类方法各有优劣。

图2.5 主题驱动生成
图2.5 主题驱动生成
图2.6 T2I-Adapter可控生成
图2.6 T2I-Adapter可控生成
图2.7 ControlNet核心架构图
图2.7 ControlNet核心架构图

现有方法局限:参考图像引导依赖性强、多属性灵活性有限;语义布局方法对精细结构建模有限;特征注入方法空间约束能力有限;空间结构约束方法对条件质量敏感。→ 需要更有效的多模态融合与注意力优化机制。

03 / 20

03. 相关理论与技术基础

扩散模型原理

扩散模型包含前向加噪反向去噪两个过程,通过马尔可夫链框架逐步学习从噪声中恢复数据分布。

前向过程:逐步添加高斯噪声直至变为纯噪声

反向过程:学习去噪网络,逐步恢复原始数据

Stable Diffusion 架构

核心创新:在潜在空间而非像素空间执行扩散过程,大幅提升计算效率。

VAE:编码器压缩图像,解码器还原结果

U-Net:在潜在空间中进行噪声预测与去噪

CLIP:将文本映射为条件嵌入引导生成

ControlNet 控制机制

通过引入旁路控制网络实现精细化结构控制,冻结预训练参数的同时学习额外条件信号。

• 复制解码器结构构建并行辅助通路

零卷积:初始权重为零,逐步学习控制能力

保证训练初期不对主干模型产生干扰。

图2.7 ControlNet原理图
图2.7 ControlNet原理图
04 / 20

04. 核心研究内容

内容一:BAM — 分层注意力调控

引入结构化语义先验,利用依存句法解析技术提取关键语义单元,将其映射至分层注意力策略中。通过解析提示词句法结构,对注意力权重进行动态重分配,实现关键语义区域的自适应增强。

内容二:FIGEN-Diffusion — 多分支条件建模

融合边缘和法线辅助信息,构建轻量级门控机制自适应调整分支权重,增强结构控制力。基于ControlNet框架,引入边缘图与法线图作为互补的几何先验信息,实现对人脸2D轮廓与3D结构的联合建模。

内容三:精细化生成机制

基于语义先验与多分支融合,解决语义偏移问题,提升人脸关键特征区域的生成精度。空间自适应门控融合机制通过轻量网络生成多模态空间权重,根据不同区域自适应各模态信息的贡献。

05 / 20

05. BAM 算法框架详解

BAM(Balance Attention Map)不改变扩散模型主体结构,作为外部调控机制嵌入到交叉注意力计算中,对语义信息的传递进行干预。

图3.1 BAM方法总体框架图
图3.1 BAM方法总体框架图
输入文本提示词
依存句法解析
语义分组
分层注意力调节
生成人脸图像

独立实体

Min-Max归一化增强主体响应,抑制背景噪声

修饰词-实体

Sigmoid非线性映射强化属性与实体之间的语义绑定

复合实体

线性缩放策略平衡多实体注意力分配

06 / 20

06. BAM 距离优化机制

针对传统KL散度在面部生成中的局限性(倾向于拟合高概率区域,忽略低概率但关键的修饰语信息),BAM采用余弦相似度 + 欧氏距离的混合距离度量,同时实现方向与位置的对齐约束。

D(A₁, A₂) = [1 - cos(A₁, A₂)] + 0.5 × ||A₁ - A₂||₂

余弦相似度约束属性与实体特征的方向一致性
L2距离控制特征尺度,防止语义偏移
• λ = 0.5 平衡方向与幅值两个层面的优化

损失函数构成

L = Lpos + Lneg

正向损失 Lpos:最大化修饰语与对应实体名词注意力图的重叠度
负向损失 Lneg:增加修饰语-实体对与无关词汇的距离,抑制错误属性关联

图3.5 距离优化方法示意图
图3.5 距离优化方法示意图— 含令牌级注意力、成对距离计算、总体目标函数
令牌级注意力提取
语义距离计算
距离损失
反向传播
07 / 20

07. BAM 数据集与实验设置

数据集概览

数据集规模文本类型构建方法
CelebA-3k3000条属性短语基于CelebA图像+属性标签生成
FFHQ-3k3000条属性短语基于FFHQ图像+BLIP描述生成
FacePrompt-3k3000条自然语句大语言模型语义拓展+句式改造

FFHQ 数据集特点

图3.6 FFHQ人脸数据集示意图
图3.6 FFHQ人脸数据集示意图 — 含多张FFHQ人脸样本
08 / 20

08. BAM 模块实验结果

数据集模型IS (↑)CLIP Score (↑)TIFA (↑)
CelebA-3kBAM(ours)8.6518.941.18
SynGen8.5318.531.17
A&E8.6518.711.15
D&B8.6818.341.17
FFHQ-3kBAM(ours)12.6118.851.16
SynGen12.6418.081.17
A&E11.5618.261.13
D&B12.5717.881.15
FacePrompt-3kBAM(ours)9.3419.361.18
SynGen9.5318.441.17
A&E9.2018.251.13
D&B10.0718.131.14

+2.21%

CelebA-3k 语义一致性提升

+4.26%

FFHQ-3k 语义一致性提升

+4.98%

FacePrompt-3k 语义一致性提升

09 / 20

09. BAM 消融实验

表 3.4 BAM 核心模块消融研究结果

BAML:仅使用分层注意力;BAMD:仅使用距离度量;BAM:完整模型

数据集模型ISCLIP ScoreTIFA
CelebA-3kBAML8.3518.721.18
BAMD8.2318.691.17
BAM8.6518.941.18
FFHQ-3kBAML12.4418.381.17
BAMD11.6217.491.16
BAM12.6118.851.17
FacePrompt-3kBAML9.9518.341.15
BAMD9.8318.121.14
BAM9.3419.361.18
结论:完整BAM模型在所有数据集上CLIP分数最优,证明分层注意力与距离度量协同有效

结论:三种注意力策略协同效果优于单独使用;混合距离度量相比传统KL散度,在语义一致性指标上有显著提升。

10 / 20

10. FIGEN-Diffusion 技术路线

通过引入 2D边缘 + 3D法线 的联合建模,增强模型对图像几何特征和细节纹理的保留能力:

图4.1 FIGEN-Diffusion 总体架构图
图4.1 FIGEN-Diffusion 总体架构图 — 含双分支ControlNet、门控融合、U-Net注入
输入图像
Canny边缘检测
+
NormalBAE法线图
双分支ControlNet
门控融合
生成结果
  • 🔶 边缘分支:捕捉2D结构轮廓信息,约束全局空间布局
  • 🔶 法线分支:提供3D光影信息,增强局部几何细节与表面特性
  • 🔶 空间自适应门控:通过轻量网络生成像素级权重图,动态选择更合适的结构先验来源
  • 🔶 零卷积连接:初始权重为零,保证训练初期不干扰主干模型
11 / 20

11. 空间自适应门控融合机制

图4.3 双分支空间自适应门控融合模块结构图
图4.3 双分支空间自适应门控融合模块结构图 — 含边缘/法线特征、卷积投影、门控网络、加权融合

融合策略设计

在第 i 个尺度上,边缘特征 Fei 与法线特征 Fni 经过拼接输入门控网络,生成空间自适应权重图 αei 和 αni,对投影后的双分支特征进行逐元素加权求和,得到融合特征 Fmi,并注入U-Net对应层级。

Fmi = αei × Pe(Fei) + αni × Pn(Fni)

权重熵正则

为防止某一模态长期主导,训练阶段引入权重熵正则项,对门控权重分布加以约束,确保边缘与法线模态均能有效参与优化。

Ltotal = Ldiff + λreg × Lreg

• Ldiff:标准噪声预测均方误差损失
• Lreg:门控权重熵正则损失,鼓励均衡的模态分配
• λreg:正则项权重系数,平衡重建目标与门控约束

12 / 20

12. FIGEN-Diffusion 实验设置

实验环境

环境名称配置
硬件GPUNVIDIA RTX 3090
CUDA12.4
软件Python3.8.5
PyTorch1.12.1
Diffusers0.19.0
Transformers4.30.2

训练参数

• 图像分辨率:512 × 512
• 优化器:AdamW,学习率 1e-5,权重衰减 1e-2
• 批大小:8,训练 100 epoch
• 训练周期:约 5天(RTX 3090)
• 单张推理时间:24.2秒
• 参数量增量:仅 +2%(vs 单条件ControlNet)
• 推理延迟增量:< 5%
• DDIM采样 50步,CFG = 7.5

13 / 20

13. FIGEN-Diffusion 定量评估

CelebA 基准

模型FID↓IS↑CLIP↑PSNR↑SSIM↑
Stable Diffusion42.168.1218.3517.820.495
DreamShaper34.578.7518.7218.650.521
Anything-v3.033.239.0218.9519.100.536
ControlNet29.829.6819.1519.750.552
T2I-Adapter29.559.8519.4220.150.568
InstantID28.9110.0519.3121.450.612
FIGEN (Ours)27.8510.1219.8821.800.628

CLIP Score较T2I-Adapter提升 +2.37%

FFHQ 基准

模型FID↓IS↑CLIP↑PSNR↑SSIM↑
Stable Diffusion39.698.3518.4818.050.501
DreamShaper32.428.9218.8518.870.527
Anything-v3.031.139.1519.1719.330.543
ControlNet28.319.7819.3220.150.561
T2I-Adapter28.149.9519.6520.550.573
InstantID27.8510.2019.5121.800.625
FIGEN (Ours)27.1110.2819.9522.150.638

CLIP Score较T2I-Adapter提升 +1.53%

14 / 20

14. 性能趋势与对比分析

图4.5 模型的FID与CLIP折线图和帕累托前沿图对比
图4.5 模型的FID与CLIP折线图和帕累托前沿图对比

不同数据规模下 FID 评估结果

70 60 50 40 67.52 58.63 56.52 50.21 47.35 5k 10k 15k 20k 25k 样本数量

FID随数据规模增加持续下降,模型具备良好的分布学习能力

各模型 CLIP Score 对比(CelebA & FFHQ)

SD Dream Any-v3 CN T2I InsID Ours CelebA FFHQ
15 / 20

15. FIGEN 消融实验

图4.8 不同方法在CelebA和FFHQ数据集上的CLIP Score对比结果
图4.8 不同方法在CelebA和FFHQ数据集上的CLIP Score对比结果

CelebA 数据集

模型EdgeNormalFID↓IS↑CLIP↑SSIM↑
Baseline29.819.6819.150.552
Edge only28.659.8219.360.581
Normal only28.409.7519.480.596
FIGEN27.8510.1219.880.628

FFHQ 数据集

模型EdgeNormalFID↓IS↑CLIP↑SSIM↑
Baseline28.329.7819.320.561
Edge only27.679.9219.550.586
Normal only27.359.8819.620.603
FIGEN27.1310.2819.950.638

边缘图:有效约束人脸整体结构轮廓,提升空间一致性与结构清晰度,但对语义对齐增强有限
法线图:刻画面部细节、光照变化及几何表面特性更强,PSNR/SSIM提升更显著
两者结合:边缘提供全局结构引导,法线增强局部几何细节,协同作用在所有指标上取得最优 → 验证了多模态条件融合策略的有效性

16 / 20

16. 定性分析与对比 — 基准模型对比

图4.6 基准模型在人脸生成任务中的视觉对比分析
图4.6 基准模型在人脸生成任务中的视觉对比分析 — 含参考图像、SD、DreamShaper、Anything-v3、ControlNet、T2I、InstantID对比

基线方法不足

  • Stable Diffusion:缺乏结构约束,面部几何畸变明显
  • ControlNet:遵循边缘轮廓较好,但单一模块控制,局部异常、光照不一致、面部僵硬
  • T2I-Adapter / InstantID:高度依赖参考图身份保持,牺牲文本响应能力,语义冲突

FIGEN-Diffusion 优势

  • 结构完整:眼睛、鼻子与嘴部空间关系协调,无明显几何畸变
  • 纹理丰富:皮肤质感、光照过渡及局部阴影关系自然
  • 语义对齐:较好响应文本条件约束,属性映射有效
  • 多模态融合:维持基础结构约束,轮廓与姿态稳定性好
17 / 20

17. 定性分析与对比 — 结果展示与不足

现存不足

五官边缘区域轻微模糊或纹理不连续(高频细节建模有提升空间)| 复杂语义与多条件叠加时属性表达存在耦合现象 | 光照条件变化大时亮度分布与阴影关系不够严格

图4.7 FIGEN-Diffusion生成的面部照片部分结果图
图4.7 FIGEN-Diffusion生成的面部照片部分结果图 — 展示不同文本提示词与条件组合下的生成效果
18 / 20

17. 面部照片生成平台

系统架构

将BAM和FIGEN-Diffusion两种算法有效集成,开发面向个性化人脸生成的系统,按照模块化理念设计,保障可扩展性和高效性。

图5.5 面部照片生成平台系统界面截图
图5.5 面部照片生成平台系统界面截图
用户界面层
API服务层
模型推理层
数据存储层

性能测试结果(RTX 4090)

模式分辨率推理时延显存占用
文本驱动生成512×512~106.8s~9.6GB
条件控制生成512×512~138.9s~11.2GB

• 5并发用户可稳定响应
• 10并发用户通过异步队列调度维持服务可用
• 安全测试:权限隔离、SQL注入防护、文件上传限制、接口流量控制均通过

19 / 20

18. 结论与未来展望

主要贡献

(1)BAM模块:在CelebA-3k和FFHQ-3k上语义一致性分别提升2.21%和4.26%,FacePrompt-3k提升4.98%
(2)FIGEN-Diffusion:融合边缘与法线多模态条件,CLIP Score分别提升2.37%和1.53%
(3)轻量级门控机制:仅+2%参数量、<5%推理延迟,实现空间位置感知的自适应权重调节

研究不足

(1)大角度姿态变化时边缘和法线融合可能出现特征错位
(2)复杂语义叠加下属性解耦不彻底,局部五官边缘偶发轻微模糊
(3)光照条件变化较大时亮度分布不够严格
(4)主要针对人脸任务,通用复杂场景泛化能力待验证

未来展望

(1)搭建多模态条件融合的弱耦合体系,增强复杂条件适应能力
(2)引入强化学习奖励策略,动态调整生成关注范围
(3)纳入物理渲染损失函数与对抗训练,提升光照真实感
(4)推广至通用图像生成任务,提升跨领域实用性

20 / 20

19. 盲审专家意见与修改说明

81分 专家一评阅意见修改说明

意见(1)

建议在第三章、第四章加入对比表,明确说明新增工作点和已有工作的不同之处。

修改:新增表3.5和表4.6,明确自身方法与已有方法的差异。

意见(2)

建议补充说明参考图像来源、是否逐样本配对、结构条件图来源,以及为何可使用像素级指标。

修改:在4.3.3评估指标部分新增PSNR和SSIM适用性说明。

意见(3)

论文对比方法在训练数据、模型规模、是否微调、输入条件和身份约束机制不完全一致,建议补充统一实验设置。

修改:在4.3实验设置部分补充了统一实验条件细节。

意见(4)

第5章系统测试缺少量化指标,建议增加推理时间、吞吐量、显存占用、失败率、队列等待时间、移动端响应时间及BAM/FIGEN性能对比。

修改:第五章5.4新增性能量化对比表,完善测试指标。

85分 专家二评阅意见修改说明

意见(1)

表4.2显示本文方法均取得最优,但实验分析部分缺少理论分析,也未说明在何种条件下本文方法存在短板。

修改:在4.3实验细节的定量分析部分新增理论分析与方法局限性分析。

意见(2)

建议增加第三章和第四章方法的时间复杂度分析。

修改:在实验细节的定量分析部分新增时间复杂度分析。

21 / 21

致 谢

感谢导师李焕哲、胡吉朝和秦彭老师的悉心指导与帮助。
感谢实验室同门的陪伴与支持。
感谢家人和挚友的鼓励与关爱。

感恩之心,藏于心底;致谢之意,见于言辞。
—— 张庆双,河北地质大学,2026年5月

×
1 / 20