零基础

Stable Diffusion文生图之PixArt-sigma篇

小智 AI绘画教程 2025年02月9日

0 收藏 0 点赞 585 浏览 2210 个字

摘要 :

Stable Diffusion文生图之PixArt-sigma篇：今天给大家带来的是Stable Diffusion文生图之PixArt-sigma篇。PixArt-sigma 是华为发布的一种 Diffusion Transformer（DiT）……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“Stable Diffusion文生图之PixArt-sigma篇”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

Stable Diffusion文生图之PixArt-sigma篇：

今天给大家带来的是Stable Diffusion文生图之PixArt-sigma篇。PixArt-sigma 是华为发布的一种 Diffusion Transformer（DiT）模型，能够直接生成 4K 分辨率的高质量图像。该模型在生成高保真图像的同时，与文本提示紧密对齐，超越了其前身 PixArt-alpha 模型。PixArt-sigma 可以直接生成 4K 的图片，目前开源的模型暂时还没有模型能做到，这个能力对于从事电影和游戏等行业的设计师来说是个巨大的福音。

一、前言
1.1 介绍
PixArt-Σ 通过将更高质量的数据纳入训练，并提出一种新颖的注意力模块来压缩 Key 值和 Value 值，实现了从“弱”基线到“强”模型的训练效率。该模型在生成高保真图像的同时，与文本提示紧密对齐，超越了其前身 PixArt-α 模型。PixArt-Σ 可以直接生成 4K 的图片，目前开源的模型暂时还没有模型能做到，这个能力对于从事电影和游戏等行业的设计师来说是个巨大的福音。关键是训练、推理、模型均会开源（承诺 2024/4/1 前开源完成）。

1.2 🆚 Compare with PixArt-α

1.3 运行环境介绍
Python：3.8 及以上版本
PyTorch：1.12 及以上版本，推荐 2.0 及以上版本
CUDA：建议使用 11.4 及以上版本（GPU 用户需考虑此选项）

二、环境搭建
2.1 下载代码

git clone https://github.com/PixArt-alpha/PixArt-sigma.git
cd PixArt-sigma

2.2 构建环境

conda create -n py310 python=3.10
source activate py310

2.3 安装依赖

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple –ignore-installed

2.4 大模型下载

2.4.1 模型下载方式介绍

• 下载方式一：使用 huggingface 下载

注意：需要魔法（注：本地可以用 https://hf-mirror.com/ 这个下载）

# SDXL-VAE, T5 checkpoints
git lfs install
git clone https://huggingface.co/PixArt-alpha/pixart_sigma_sdxlvae_T5_diffusers
output/pixart_sigma_sdxlvae_T5_diffusers
# PixArt-Sigma checkpoints
python tools/download.py

三、快速实战
3.1 如何使用 Gradio 启动
启动模型后台

cd PixArt-sigma
conda create -n py310 python=3.10
source activate py310
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple –ignore-installed

使用 Gradio 客户端生成图片

from gradio_client import Client

# 建立后台服务器链接
client = Client(“http://0.0.0.0:6006″)

# 查看请求参数
client.view_api(return_format=”dict”)

# 传参请求生成图
out_data = client.predict(
“An adorable girl with curly hair, innocently laughing with a big smile, looking very happy Poster style –ar 9:16”,
“dpm-solver”,
14,
4.5,
0,
True
)

# 生成图片可视化
import matplotlib.pyplot as plt
from PIL import Image

# 图片地址
image_path = out_data[0]

# 打开并显示图片
img = Image.open(image_path)
plt.imshow(img)
plt.axis(‘off’) # 关闭坐标轴
plt.show()

使用Gradio客户端来与一个后台服务器建立连接，并通过传递参数请求生成一张图片。首先建立了与服务器的连接，然后查看了请求参数的格式。接着使用client.predict方法传递参数来生成一张图片，参数包括描述图片内容的文本、模型名称、以及其他参数。生成的图片保存在out_data中，然后通过Matplotlib和PIL库来打开和显示这张图片。具体步骤包括：

1. 建立与服务器的连接。
2. 查看请求参数的格式。
3. 使用client.predict方法传递参数请求生成一张图片。
4. 从生成的结果中获取图片地址。
5. 使用PIL库打开并显示生成的图片。

最后一段代码使用Matplotlib显示了生成的图片，关闭了坐标轴以便更清晰地展示图片内容。

3.2 如何使用 Integration 启动

[!IMPORTANT]
Upgrade your diffusers to make the PixArtSigmaPipeline available!

pip install git+https://github.com/huggingface/diffusers

For diffusers<0.28.0, check this script for help.

import torch
from diffusers import Transformer2DModel, PixArtSigmaPipeline

device = torch.device(“cuda:0” if torch.cuda.is_available() else “cpu”)
weight_dtype = torch.float16

transformer = Transformer2DModel.from_pretrained(
“PixArt-alpha/PixArt-Sigma-XL-2-1024-MS”,
subfolder=’transformer’,
torch_dtype=weight_dtype,
use_safetensors=True,
)

pipe = PixArtSigmaPipeline.from_pretrained(
“PixArt-alpha/pixart_sigma_sdxlvae_T5_diffusers”,
transformer=transformer,
torch_dtype=weight_dtype,
use_safetensors=True,
)

pipe.to(device)

3.3 PixArt Demo

# PixArt-Sigma 1024px
DEMO_PORT=12345 python app/app_pixart_sigma.py

# PixArt-Sigma One step Sampler(DMD)
DEMO_PORT=12345 python app/app_pixart_dmd.py

3.4 Convert .pth checkpoint into diffusers version

Directly download from Hugging Face
or run with:

pip install git+https://github.com/huggingface/diffusers

python tools/convert_pixart_to_diffusers.py –orig_ckpt_path output/pretrained_models/PixArt-Sigma-XL-2-1024-MS.pth –dump_path output/pretrained_models/PixArt-Sigma-XL-2-1024-MS -only_transformer=True –image_size=1024 –version sigma

通过以上步骤，我们成功搭建了 PixArt-sigma 的运行环境，并进行了简单的实战操作。希望这篇教程能帮助你快速上手 PixArt-sigma，生成高质量的 4K 图像。如果你有任何问题，欢迎在评论区留言讨论。

Stable Diffusion文生图之VisCPM篇

Stable Diffusion文生图之VisCPM篇：今天给大家带来的是 Stable Diffusion文生图之 VisCPM 篇。VisCPM 是基于 CPM 基础模型的中英双语多...

查看文章

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“Stable Diffusion文生图之PixArt-sigma篇”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫