2026-05-01

本地图像生成的 Stable Diffusion:完整安装配置指南

掌握在自有硬件上使用 Stable Diffusion 进行本地图像生成的技巧。了解硬件要求、用户界面选择以及保护绝对隐私的高级工作流。

本地图像生成的 Stable Diffusion:完整安装配置指南

快速解答: 运行 Stable Diffusion 进行本地图像生成需要一块独立显卡(理想情况下是至少拥有 8GB VRAM 的 NVIDIA 显卡)、足够的系统内存(16GB 以上)以及像 Automatic1111 或 ComfyUI 这样的用户界面。本地生成提供了绝对的隐私、零持续订阅成本,并且能够完全掌控 ControlNet 和自定义 LoRA 等高级工具,而不受任何内容限制。

在本地运行 AI 图像生成模型已经从一项复杂的开发者实验转变为一种主流的创意工作流。虽然基于云的服务提供了便利,但它们伴随着每月的订阅费用、严格的内容过滤,以及关于你生成或用作源材料的图像的潜在隐私问题。

Stable Diffusion 从根本上改变了这种动态。通过将模型权重直接下载到你自己的硬件上,你可以将个人电脑转变为一个完全私密、无审查且高度可定制的创意工作室。最初的设置需要了解特定的硬件要求和软件安装,但回报是完全拥有你的生成流水线。

本指南详细介绍了如何部署 Stable Diffusion 以进行本地图像生成,涵盖硬件最低要求、用户界面比较以及用于生成高质量输出的实用工作流。

本地生成的硬件要求

本地图像生成的基础是你的硬件。与严重依赖 CPU 的传统渲染任务不同,高效运行 Stable Diffusion 需要专门的硬件,特别是图形处理单元 (GPU)。

VRAM:最终的瓶颈

显存 (VRAM) 决定了你可以生成的最大分辨率以及可以加载到内存中的模型大小。

  • 4GB 至 6GB: 绝对下限。你只能在 512x512 的分辨率下使用较旧的模型(如 Stable Diffusion 1.5)。你需要使用积极的内存优化参数,如 --lowvram
  • 8GB: 当前的主流基准。可以舒适地运行包括 ControlNet 在内的 SD 1.5 工作流,并能够以中等生成时间运行 1024x1024 分辨率的 SDXL 模型。
  • 12GB 至 16GB: 发烧友的理想选择。允许无缝多任务处理、复杂的 ComfyUI 工作流、高分辨率放大,以及在不出现内存溢出错误的情况下训练自定义 LoRA。
  • 24GB(例如 RTX 3090, 4090): 专业级。能够处理海量批次大小、连续高分辨率视频生成(Deforum, AnimateDiff)以及全尺寸的模型微调。

NVIDIA vs. AMD vs. Apple Silicon

Stable Diffusion 严重依赖 CUDA 核心,这使得 NVIDIA GPU 成为标准配置。虽然 PyTorch(底层框架)支持通过 ROCm 运行 AMD,通过 MPS 运行 Apple Silicon,但 NVIDIA 硬件仍然快得多,并且对新的社区扩展享有首日支持。

如果你专门为此目的组装或购买机器,强烈推荐使用 NVIDIA GPU。苹果的 M 系列芯片(M2/M3/M4 Max 和 Ultra)正变得越来越可行,因为它们采用了统一内存架构,允许访问大量 RAM,尽管其生成速度无法与高端 NVIDIA 桌面显卡相匹配。

系统内存与存储

你至少需要 16GB 的系统内存(RAM),尽管建议使用 32GB,以防止在将大量模型文件加载到 VRAM 时系统出现卡顿。存储速度同样至关重要;模型文件(safetensors)通常每个超过 6GB。必须使用快速的 NVMe SSD,以减少模型在内存中换入和换出时的等待时间。

选择合适的用户界面

Stable Diffusion 是一个原始模型。要与它交互,你需要一个 Web 用户界面 (WebUI)。社区已经开发了几个针对不同用户偏好量身定制的独特前端。

Automatic1111 (A1111)

行业标准。Automatic1111 提供了一个传统的、密集的仪表板,包含滑块、复选框和下拉菜单。

  • 优点: 庞大的扩展生态系统、熟悉的界面、详尽的文档,以及对社区发现的几乎每一项新技术提供即时支持。
  • 缺点: 界面对初学者来说可能会感到不知所措,而且代码更新偶尔会破坏现有的扩展。

ComfyUI

一个基于节点(node-based)的界面,专为极致的灵活性和工作流优化而设计。你可以通过连接线将各种视觉节点(加载器、采样器、输出节点)连接起来,而不是使用仪表板。

  • 优点: 内存效率极高,允许极其复杂的自动化工作流,并在相同硬件上比 A1111 处理图像的速度更快。
  • 缺点: 学习曲线陡峭。你必须了解 Stable Diffusion 如何将数据从模型路由到采样器再到 VAE 的底层机制。

Fooocus

旨在模仿 Midjourney 简单的“提示词即生成”体验,同时在本地运行。它去除了复杂的滑块并使用了智能默认值。

  • 优点: 零配置要求,出色的默认输出,专门针对 SDXL 模型进行了优化。
  • 缺点: 与 A1111 或 ComfyUI 相比,对生成流水线的精细控制较少。

了解基础模型与 Checkpoints

安装好 UI 后,你必须下载模型权重。AI 社区在核心 Stable Diffusion 架构的迭代版本上运作。

Stable Diffusion 1.5 (SD 1.5)

尽管发布较早,SD 1.5 仍然具有高度的实用性。基础模型生成 512x512 的图像,但社区花了数年时间对其进行微调。针对 SD 1.5 的 LoRA、ControlNet 模型和自定义 checkpoints 的生态系统是无可匹敌的。它可以在 8GB GPU 上轻松运行,是生成重度风格化艺术或动漫风格的最佳起点。

Stable Diffusion XL (SDXL)

现代标准。SDXL 原生在 1024x1024 图像上进行训练,开箱即提供显著提升的提示词依从性、准确的文本渲染和改进的解剖结构生成。它需要更多的 VRAM 和更长的生成时间,但基础质量的飞跃是巨大的。

微调后的 Checkpoints

你很少会使用来自 Stability AI 的官方“基础”模型。相反,你会从 Civitai 或 HuggingFace 等代码库下载微调版本。这些是社区为了特定目的而进一步训练的基础模型:

  • Photorealism(照片级真实): 专门针对高分辨率摄影训练的 Checkpoints。
  • Illustration/Anime(插画/动漫): 针对 2D 平面阴影和特定艺术家风格优化的模型。
  • General Purpose(通用型): 试图在真实感、艺术性和复杂的提示词理解之间取得平衡的混合模型。

本地生成的核心工作流

本地图像生成的真正威力远超越仅仅输入一个提示词然后祈祷好运。本地 UI 允许你使用迭代的工作流。

文生图 (txt2img)

基础工作流。你输入一个描述你想要什么的正面提示词 (positive prompt),以及一个描述你想避免什么(例如,“模糊的、低分辨率的、多余的手指”)的负面提示词 (negative prompt)。要获得良好的结果,需要尝试不同的 CFG (Classifier Free Guidance) 比例(它决定了模型多严格地遵循你的提示词),以及不同的采样算法(如 Euler a 或 DPM++ 2M Karras)。

图生图 (img2img)

这允许你在提供文本提示词的同时,提供一张初始的源图像。模型将源图像的颜色和基本形状作为起点。“重绘幅度” (Denoising Strength) 滑块控制模型对原始图像的改变程度。设置为 0.2 会应用轻微的滤镜效果,而 0.8 则会完全重塑源图像。

局部重绘 (Inpainting)

图生图的一种局部版本。你可以遮罩图像的一个特定区域(例如,角色的手或背景天空),并提示模型仅重新生成该特定的遮罩区域。这是修复一张本来很完美的生成图像中细小错误的主要方法。

ControlNet

ControlNet 是一款革命性的扩展,它迫使 Stable Diffusion 遵循结构化的准则。你可以给 ControlNet 提供一张图像,并要求它提取人物的姿势 (OpenPose)、建筑物的边缘轮廓 (Canny) 或房间的深度信息 (Depth),而不是单纯依赖文本。然后,模型会生成一张与提取出的结构完美匹配的全新图像。

实用的优化建议

在本地运行这些模型需要仔细管理你的系统资源。如果你遇到生成时间缓慢或内存溢出错误,请实施这些优化。

命令行参数

如果你使用的是 Automatic1111,你可以编辑 webui-user.bat (Windows) 或 webui-user.sh (Mac/Linux) 文件来添加优化项。

  • 如果你使用的是 NVIDIA GPU,请使用 --xformers。这会启用高效的内存注意力机制,显著降低 VRAM 使用量并略微提升速度。
  • 如果你拥有一张 8GB 显卡并希望运行 SDXL 而不崩溃,请添加 --medvram-sdxl

分辨率缩放

永远不要尝试直接从基础模型生成 4K 图像。Stable Diffusion 模型是在特定分辨率下训练的(SD 1.5 为 512x512,SDXL 为 1024x1024)。在远高于这些尺寸的情况下进行生成会导致模型产生幻觉,出现重复的元素(例如,一个身体上长出两个头)。

相反,应在原生分辨率下生成,然后使用专用的放大 (upscaler) 工作流(如 A1111 中的 Hires.fix 或 ComfyUI 中的 Ultimate SD Upscale 节点)将图像切片成图块 (tiles) 并逐个放大。

存储管理

你的模型文件夹会迅速膨胀。一个单体的 SDXL checkpoint 大约是 6.5GB。一个 ControlNet 模型是 1.5GB。你可以轻易积累数百 GB 的模型。定期清理你的 models/Stable-diffusion 目录。保留一小批高度可靠的 checkpoints 轮换使用,而不是囤积你很少使用的模型。

本地 AI 艺术的未来

配置 Stable Diffusion 进行本地图像生成需要最初的时间投资,以了解硬件要求、界面选项和相关术语。然而,由此产生的工作流提供了基于云的订阅服务无法匹敌的精度、隐私和速度。

通过利用像 ComfyUI 这样的基于节点的界面以及像 ControlNet 这样的结构化工具,你已经从单纯地生成图像,转变为指挥一个强大的本地渲染引擎。随着硬件能力的扩展和模型架构变得更加高效,本地生成仍将是专业数字艺术家和 AI 爱好者的首选环境。

常见问题解答

我可以在笔记本电脑上运行 Stable Diffusion 吗?

可以,前提是该笔记本电脑拥有至少配备 6GB VRAM 的独立显卡(最好是 NVIDIA),或者是一台至少拥有 16GB 统一内存的现代 Apple Silicon MacBook。由于热节流和较低的功率限制,笔记本电脑的运行温度会比同等配置的台式机更高,速度也更慢。

本地的 Stable Diffusion 需要互联网连接吗?

不需要。一旦你下载了必要的 UI 依赖项、基础模型 checkpoints 以及任何所需的 LoRA,整个生成过程完全在你的本地硬件上离线运行。

Checkpoint 和 LoRA 之间有什么区别?

Checkpoint(或基础模型)是一个庞大的、数 GB 的文件,包含能够生成多样化图像的核心神经网络。LoRA (Low-Rank Adaptation) 是一个较小的、具有针对性的文件(通常小于 200MB),它可以暂时改变 Checkpoint,从而将高度特定的角色、风格或概念注入到生成中。

为什么我的本地生成图像模糊或扭曲?

这通常发生在基础分辨率对于你的提示词来说太低,或者你的 CFG Scale 设置过高(高于 10)时,这会导致模型为了极力匹配文本而把图像“炸毁” (deep fry)。请确保你在模型的原生分辨率下进行生成,并将 CFG 保持在 5 到 7 之间。

将本地生成的图像用于商业用途是否合法?

合法,底层的 Stable Diffusion 权重(版本 1.5,SDXL)是在允许将输出图像用于商业用途的许可下发布的。然而,你必须核实你下载的自定义社区微调模型的特定许可证,因为一些创作者将他们特定的 checkpoints 严格限制为仅供非商业使用。


相关阅读