Stable Diffusion 是一種人工智能模型,可將簡單的文本提示轉(zhuǎn)換為令人驚嘆的高分辨率圖像,為藝術(shù)家、設(shè)計師和愛好者開辟了創(chuàng)意可能性。然而,就像所有我們討論過的生成式人工智能模型,Stable Diffusion需要大量的計算資源。
捷智算平臺可訪問 NVIDIA A40 GPU,旨在加速 AI 工作負(fù)載。通過將Stable Diffusion與 A40 的高性能功能相結(jié)合,您可以生成復(fù)雜的藝術(shù)品、嘗試各種風(fēng)格,并在比僅使用 CPU 更短的時間內(nèi)將您的藝術(shù)構(gòu)想變?yōu)楝F(xiàn)實(shí)。
無論您是經(jīng)驗豐富的 AI 藝術(shù)家還是好奇的初學(xué)者,本指南都將引導(dǎo)您在捷智算平臺上使用 NVIDIA A40 實(shí)現(xiàn)Stable Diffusion。我們將介紹從獲取模型到啟動第一個圖像生成項目的所有內(nèi)容。
選擇您的型號
第一步是選擇模型。在本指南中,我們將使用Stable AI 的Stable Diffusion模型。該模型及其文檔位于 hugging face 上。
來源:Stability AI
從 hugging face 獲取模型時,您首先必須創(chuàng)建一個帳戶。完成后,您必須生成一個訪問令牌,您將使用該令牌將模型拉入您的 VM。為此,請單擊您的個人資料圖片并導(dǎo)航到“設(shè)置”。
單擊“訪問令牌”,然后單擊“創(chuàng)建新令牌”。
選擇此令牌的所有必要權(quán)限、您希望它訪問的存儲庫、您希望它訪問的組織等等。完成后,單擊“創(chuàng)建令牌”。復(fù)制令牌并將其保存在安全的地方。
接下來,在捷智算平臺上創(chuàng)建項目并創(chuàng)建虛擬機(jī)。我們將使用 NVIDIA A40 以及 2 個 vCPU、8GB 內(nèi)存和 150GB 啟動盤。
通過 SSH 進(jìn)入您的虛擬機(jī),然后運(yùn)行更新和升級命令。
sudo apt update && sudo apt upgrade -y
然后安裝 pip,我們將在安裝其他 Python 庫和框架時使用它,命令如下:
apt install python3-pip
接下來,我們將在機(jī)器上安裝虛擬環(huán)境。即使您在虛擬機(jī)中工作,出于以下原因,最好這樣做:
隔離:虛擬環(huán)境隔離了項目的 Python 依賴項,從而避免了可能需要同一庫的不同版本的不同項目之間發(fā)生沖突。在沒有虛擬環(huán)境的情況下為一個項目安裝庫可能會破壞依賴于不同版本的另一個項目。
可重復(fù)性:虛擬環(huán)境確保您的項目具有正確運(yùn)行所需的精確依賴關(guān)系,從而更容易與他人共享您的項目或?qū)⑵洳渴鸬缴a(chǎn)中,因為您可以確信環(huán)境將是相同的。
整潔:虛擬環(huán)境使整個系統(tǒng)的 Python 安裝保持整潔。您不會因項目特定的依賴項而弄亂虛擬機(jī)的全局庫,從而更輕松地在虛擬機(jī)上管理 Python。
即使您在提供一定隔離的云虛擬機(jī)中工作,虛擬環(huán)境也能對特定于您的項目的依賴項提供更細(xì)粒度的控制。
我們將使用venv在本指南中,但您可以使用不同的工具來管理您的虛擬環(huán)境,例如conda。由于我們使用的是 Ubuntu 系統(tǒng),因此我們必須使用以下命令安裝 python3-venv 包。
apt install python3.10-venv
現(xiàn)在,我們將為項目創(chuàng)建一個文件夾并導(dǎo)航到其中。
mkdir stable_diffusion && cd stable_diffusion
我們將使用之前安裝的 venv 在此文件夾中創(chuàng)建虛擬環(huán)境。
python3 -m venv venv
您應(yīng)該在此目錄中有一個 venv 文件夾,如上圖所示。接下來,使用此命令激活虛擬環(huán)境。
source venv/bin/activate
激活虛擬環(huán)境后,我們可以安裝所需的庫和依賴項。
pip install torch torchvision torchaudio diffusers huggingface_hub matplotlib accelerate transformers sentencepiece protobuf
這需要一點(diǎn)時間才能運(yùn)行。完成后,您就可以在捷智算平臺上使用穩(wěn)定擴(kuò)散了。
接下來,我們將創(chuàng)建一個腳本來在虛擬機(jī)上測試該模型。
首先,我們將創(chuàng)建一個文件夾來保存我們想要用這個模型生成的圖像。
mkdir generated_images
然后,我們開始編寫代碼。
導(dǎo)入您需要的所有模塊。
import os
import torch
from diffusers import DiffusionPipeline
from huggingface_hub import HfFolder, login
from PIL import Image
接下來,我們必須驗證我們的 Hugging Face ID 來提取模型。
# Set your Hugging Face token
token = "your_hugging_face_token"
os.environ["HF_AUTH_TOKEN"] = token
HfFolder.save_token(token)
# Login with your token
login(token=token)
該令牌將是您之前創(chuàng)建的 Hugging Face 令牌。
警告:將 Hugging Face 令牌(或任何密鑰)留在代碼庫中存在安全風(fēng)險。訪問您代碼的人可能會竊取令牌并用它來生成圖片,甚至訪問您的 Hugging Face 帳戶。
始終使用環(huán)境變量安全地存儲令牌、密碼和其他機(jī)密,以防止這種情況發(fā)生。這樣可以將它們與代碼分開,并使它們更難被意外泄露。
接下來,我們使用Diffusion Pipeline加載模型。
# Load the model using DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
這幾行代碼執(zhí)行與加載和配置用于圖像生成的擴(kuò)散模型相關(guān)的兩個關(guān)鍵操作:
加載模型:
DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers"):此行使用來自擴(kuò)散器庫的 DiffusionPipeline 類的 from_pretrained 方法。它從 Hugging Face Hub 下載預(yù)先訓(xùn)練的擴(kuò)散模型。此處加載的具體模型是“stabilityai/stable-diffusion-3-medium-diffusers”,它是 Stable Diffusion 3 模型的中型版本。
將模型移至 GPU:
pipe.to("cuda"):此行將加載的模型管道(管道)移動到啟用 CUDA 的設(shè)備,如果可用,則為圖形處理單元 (GPU),在我們的例子中,它是。如上所述,擴(kuò)散模型的計算成本很高,與在 CPU 上運(yùn)行相比,GPU 可以顯著加速圖像生成過程。
接下來,我們使用加載的擴(kuò)散模型(管道)根據(jù)提供的文本提示和其他參數(shù)生成圖像。
# Generate an image
result = pipe(
"A smiling cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
)
讓我們分解一下每個元素:
result = pipe(...):此行調(diào)用 pipe 對象,該對象代表已加載的擴(kuò)散管道。它要求模型根據(jù)括號內(nèi)提供的參數(shù)生成圖像。
“一只貓舉著一塊寫著“你好世界”的牌子”:這個文本提示描述了所需的圖像。模型將使用此信息來指導(dǎo)圖像生成過程。
negative_prompt="":這是一個可選參數(shù),用于指定負(fù)面提示。負(fù)面提示允許您告訴模型您不希望在圖像中出現(xiàn)什么。在這里,我們使用一個空字符串,表示沒有特定的負(fù)面提示。
num_inference_steps=28:此參數(shù)控制圖像生成過程中使用的推理步驟數(shù)。每個步驟都會根據(jù)模型對提示的理解來細(xì)化圖像。值越高,圖像質(zhì)量就越高,但生成圖像的時間也越長。
guide_scale=7.0:此參數(shù)控制文本提示對生成圖像的影響。較高的值會增加模型對提示的遵守程度,而較低的值則允許更多的創(chuàng)作自由。
執(zhí)行此代碼后,result 變量將包含有關(guān)生成的圖像的信息,包括實(shí)際圖像數(shù)據(jù)本身。接下來,我們檢索生成的圖像并將其保存到特定位置。
# Get the generated image
image = result.images[0]
# Save the image
image_path = "generated_images/generated_image.png"
image.save(image_path)
具體如下:
1、檢索圖像:
result.images 0:如前所述,result 變量保存有關(guān)生成圖像的信息。在這里,我們訪問 result 中的 images 屬性。此屬性可能包含生成的圖像列表(可能用于變體或多次生成運(yùn)行)。我們使用0來訪問列表中的第一個圖像(假設(shè)只有一個生成的圖像)。
2、保存圖像
image_path = "generated_images/generated_image.png":此行定義圖像的保存路徑。它將圖像保存為文件名“generated_image.png”。
image.save(image_path):此行使用圖像對象的 save 方法(我們從 result.images 0中檢索到)。該方法將 image_path 作為參數(shù),指定保存圖像的目標(biāo)位置。
要運(yùn)行代碼,請使用 python3 命令。假設(shè)文件保存為 app.py,請使用以下命令。
python3 app.py
如果您第一次運(yùn)行代碼,它將從 Hugging Face 下載模型并生成圖像。
圖像將保存在您的 generated_images 文件夾中。要查看它,您只需使用安全復(fù)制 (SCP) 將圖像復(fù)制到本地計算機(jī)即可。為此,請導(dǎo)航到本地計算機(jī)上的命令行并運(yùn)行此命令。
scp root@external_ip:~/stable_diffusion/generated_images/generated_image.png the/destination/path
注意:將 External_IP 替換為虛擬機(jī)的實(shí)際 IP 地址。如果您已經(jīng)為虛擬機(jī)設(shè)置了命名主機(jī),就像我們一樣,你可以改用這個命令:
scp sdserver:~/stable_diffusion/generated_images/generated_image.png the/destination/path
圖像將被復(fù)制到您的計算機(jī)中。
當(dāng)在捷智算平臺上使用 A40 GPU 執(zhí)行穩(wěn)定擴(kuò)散任務(wù)時,執(zhí)行速度與本地機(jī)器明顯不同。
import os
import torch
from diffusers import DiffusionPipeline
from huggingface_hub import HfFolder, login
from PIL import Image
import time # Import the time module
# Set your Hugging Face token
token = "your_hugging_face_model"
os.environ["HF_AUTH_TOKEN"] = token
HfFolder.save_token(token)
# Login with your token
login(token=token)
# Start time measurement
start_time = time.time()
# Load the model using DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
# Generate an image
result = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
)
# Get the generated image
image = result.images[0]
# Save the image
image_path = "generated_images/generated_image.png"
image.save(image_path)
# End time measurement
end_time = time.time()
# Calculate and display execution time
execution_time = end_time - start_time
print(f"Script execution time: {execution_time:.2f} seconds")
下載模型后首次運(yùn)行時該腳本在 CUDO Compute 上的平均執(zhí)行時間約為 67 秒。
在后續(xù)運(yùn)行中,當(dāng)模型已緩存時,執(zhí)行時間平均下降到 41 秒左右。在一臺臺式計算機(jī)上運(yùn)行相同的腳本可能需要數(shù)小時。
總結(jié)
在本指南中,您已成功學(xué)習(xí)了如何使用捷智算平臺上的 NVIDIA A40 GPU 和Stable Diffusion模型根據(jù)文本提示生成圖像。您已學(xué)習(xí)了如何:
使用 GPU 在捷智算平臺上設(shè)置虛擬機(jī)。
創(chuàng)建和管理 Python 虛擬環(huán)境以使您的項目保持井然有序。
安裝使用 Stable Diffusion 所需的庫和工具。
通過 Hugging Face 進(jìn)行身份驗證即可下載模型。
編寫一個 Python 腳本,根據(jù)文本提示生成圖像。
將生成的圖像傳輸?shù)奖镜貦C(jī)器以供查看和共享。
您現(xiàn)在可以嘗試不同的提示和參數(shù),甚至可以在捷智算平臺的基礎(chǔ)設(shè)施上探索其他 AI 模型。無論您是藝術(shù)家、設(shè)計師還是 AI 愛好者,從文本生成圖像的能力都是一個強(qiáng)大的工具,可以增強(qiáng)您的工作流程并激發(fā)新的想法。