Stable Diffusion Web UI (AUTOMATIC1111) 应用详细介绍
Stable Diffusion Web UI 是由开发者 AUTOMATIC1111 创建的一个广受欢迎的开源项目,它基于 Gradio 库实现,为 Stable Diffusion 模型提供了一个强大且用户友好的图形化网页界面。该项目在 GitHub 上拥有超过 16 万颗星标,是 AI 图像生成领域最主流的工具之一。
核心功能
该应用提供了丰富的图像生成和处理功能,涵盖从基础到高级的各种需求:
基础生成模式:
- 文生图 (txt2img): 根据文本描述生成图像。
- 图生图 (img2img): 基于现有图像进行修改或再创作。
高级编辑与优化:
- 图像外补 (Outpainting): 扩展图像边界,生成超出原始画布的内容。
- 图像内补 (Inpainting): 对图像中的特定区域进行重绘或修复。
- 彩色素描 (Color Sketch): 在图像上进行手绘和上色。
- 高分辨率修复 (Highres Fix): 一键生成高分辨率图像,避免常见的失真问题。
- 稳定扩散放大 (Stable Diffusion Upscale): 利用模型本身进行图像放大。
提示词与参数控制:
- 注意力机制 (Attention): 通过语法(如
((tuxedo)) 或 (tuxedo:1.21))让模型更关注提示词中的特定部分。在 Mac 上可使用 Command 键,其他系统使用 Ctrl 键配合方向键快速调整。 - 负面提示词 (Negative Prompt): 指定不希望出现在生成图像中的元素。
- 提示词编辑 (Prompt Editing): 在生成过程中动态改变提示词,例如先生成一个西瓜,再中途切换到生成动漫女孩。
- 可组合扩散 (Composable-Diffusion): 使用大写
AND 分隔多个提示词,并支持权重设置,如 a cat :1.2 AND a dog AND a penguin :2.2。 - 无令牌限制: 突破了原始 Stable Diffusion 75 个令牌的限制。
图像处理与增强:
- 面部修复: 集成了 GFPGAN 和 CodeFormer 两种神经网络用于修复和改善面部细节。
- 图像放大: 支持 RealESRGAN、ESRGAN、SwinIR、Swin2SR 和 LDSR 等多种主流放大模型。
- CLIP 反向推理 (CLIP interrogator): 尝试从一张图像中逆向推测出生成它所需的提示词。
高级特性与工具:
- X/Y/Z 图表 (X/Y/Z plot): 通过绘制三维图表,直观比较不同参数组合下的生成效果。
- 循环处理 (Loopback): 对图像进行多次连续的 img2img 处理。
- 种子调整 (Seed Resizing): 在略微不同的分辨率下生成相同的图像。
- 变化 (Variations): 生成与原始图像几乎相同但有微小差异的图像。
- 检查点合并 (Checkpoint Merger): 将最多 3 个不同的模型检查点合并为一个。
- 平铺支持 (Tiling): 生成可像纹理一样无缝拼接的图像。
模型与扩展支持
该 Web UI 对多种模型和社区扩展提供了良好支持:
- 模型兼容性: 支持 Stable Diffusion 2.0、Alt-Diffusion、Segmind Stable Diffusion 等。支持加载 .safetensors 格式的检查点。
- 文本反转 (Textual Inversion): 允许用户创建和使用自定义的嵌入向量,并可在 8GB 显存上进行训练。
- LoRA 与超网络 (Hypernetworks): 支持 LoRA 和超网络,并提供独立的 UI 界面,方便用户预览和选择要添加到提示词中的嵌入、超网络或 LoRA。
- 自定义脚本: 支持丰富的社区自定义脚本和扩展,极大地扩展了应用的功能边界。
- 不同 VAE 加载: 可在设置界面中选择加载不同的变分自编码器。
用户体验与便捷性
该应用在用户体验方面也做了大量优化:
- 一键安装与运行: 提供了适用于 Windows、Linux 和 macOS 的自动化安装脚本。
- 实时预览: 在生成过程中提供进度条和实时图像预览,甚至可以调用独立的神经网络以减少显存占用。
- 参数保存与恢复: 生成参数会随图像一起保存(PNG 格式保存在块中,JPEG 格式保存在 EXIF 中)。用户可以将图像拖拽到 PNG Info 标签页以恢复参数,并自动复制到 UI 中。
- 风格 (Styles): 允许用户保存部分提示词,并通过下拉菜单快速应用。
- 设置页面: 提供全面的设置页面,用户甚至可以调整 UI 元素的默认值、范围及布局顺序。
- 低显存支持: 支持 4GB 显存的显卡,并有用户报告在 2GB 显存上也能运行。
- 批量处理: 支持对一组文件进行批量 img2img 处理。
- API 接口: 提供 API 供程序化调用。
安装方式
项目提供了多种安装途径以适应不同用户群体:
- Windows 发布包: 下载预打包的
sd.webui.zip,运行 update.bat 和 run.bat 即可。 - Windows 自动安装: 安装 Python 3.10.6 和 Git,克隆仓库后运行
webui-user.bat。 - Linux 自动安装: 安装依赖(如 wget、git、python3 等),运行
webui.sh 或直接克隆仓库。 - Apple Silicon: 提供了专门的安装指南。
总结
AUTOMATIC1111 的 Stable Diffusion Web UI 凭借其全面的功能、高度的可定制性、活跃的社区支持以及对低配置硬件的友好度,已成为 AI 图像生成领域事实上的标准工具之一。无论对于新手还是专业用户,它都提供了一个强大而灵活的平台来探索和利用 Stable Diffusion 模型的潜力。