Stable Diffusion中的常用術語解析

Stable Diffusion中的常用術語解析

對于很多初學者來說,會對Stable Diffusion中的很多術語感到困惑,當然你不是唯一的那個。

在這篇文章中,我将會講解幾乎所有你在Stable Diffusion中需要了解的關鍵術語。搞懂了這些術語,使用stable diffusion起來就會事半功倍。

4x-Ultrasharp

4x-Ultrasharp是一款流行的人工智能圖像增強工具,能夠生成高清晰度的圖像。它在Stable Diffusion的圖像放大方面用的非常多。

AI upscaler

AI upscaler是一種采用人工智能技術的模型,能夠在放大圖像的同時增強圖像細節。

Ancestral sampler

Ancestral sampler是一種在圖像采樣過程中向圖像添加噪音的技術。它們被稱為随機采樣器,因為它們的采樣結果具有一定的随機性。通常在它們的名稱中會包含一個獨立的字母“a”,比如說Euler a。

AnimateDiff

AnimateDiff是一種stable diffusion的文本到視頻的技術。它采用了一個運動控制模型來影響Stable diffusion模型,從而生成一個以運動為序列的圖像視頻。這種方法可以幫助用戶更直觀地理解文本内容,并且為用戶提供了一種全新的視覺體驗。在實際應用中,AnimateDiff可以用于制作教育視頻、科技演示等多種場景,為用戶帶來更加生動和有趣的學習體驗。

Anything v3

Anything v3是一款備受贊譽的動漫風格Stable diffusion模型。它是Stable diffusionv1.5模型的一個版本。這個模型以其穩定性和擴散效果而聞名,被廣泛應用于計算機圖形學和動畫制作領域。如果您正在尋找一個穩定且高效的擴散模型,Anything v3将是您的不二選擇。

AUTOMATIC1111

AUTOMATIC1111是一個備受歡迎的開源社區開發的Stable diffusion用戶界面。該項目最初由名為AUTOMATIC1111的用戶發起。官方項目名稱是Stable diffusion Web UI。

Civitai

Civitai是一個專注于Stable diffusion模型的網站,擁有大量的資源。您可以使用AUTOMATIC1111擴展Civitai Helper來方便地進行下載。

與Hugging Face相比,Civitai更專注于Stable diffusion模型。在這裡,您可以找到許多用戶生成的圖像資源。

CFG scale

分類器自由指導Classifier-Free Guidance(CFG)規模控制了在txt2img和img2img中應該遵循prompt的程度。CFG scale的大小直接影響了生成圖像時對輸入文本的理解程度。

較大的CFG scale意味着模型有更大的自由度來根據輸入文本進行圖像生成,而較小的CFG scale則會更加嚴格地遵循輸入文本的提示。

通過調整CFG規模,我們可以更好地控制模型在生成圖像時的創造性和準确性。

Checkpoint model

Checkpoint model是對Stable diffusion模型更精确的稱呼。它用于區分LoRA、textual inversion和Lycoris。

ComfyUI

ComfyUI 是基于節點的用戶界面,由 Stable Diffusion 開發。它深受高級 Stable Diffusion 用戶的喜愛。

ControlNet

ControlNet是一個神經網絡,通過引入額外的條件來控制圖像的生成過程。

它可以用來調整人體姿勢和圖像構圖。這标志着Stable diffusion領域的一個重大突破。

DDIM

Denoising Diffusion Implicit Models (DDIM) 是第一個用于解決擴散模型的取樣器之一。

DDIM是首個用于處理擴散模型的采樣器之一。它采用了一種全新的方法來處理噪音和模糊,旨在提高模型的精确度和穩定性。

DDIM的出現為解決擴散模型提供了全新的可能性,為計算機技術領域帶來了新的突破。通過DDIM,我們能夠更加有效地處理擴散模型,為計算機技術的發展帶來更多可能性。

Deforum

Deforum是一個利用Stable diffusion技術生成視頻的工具。

這是一種能夠有效減少視頻抖動和模糊的技術,通過Deforum工具,用戶可以輕松地生成高質量、穩定的視頻内容。

無論是在拍攝運動場景還是在拍攝手持鏡頭下的視頻,Deforum都能夠幫助用戶輕松實現穩定的視頻生成。同時,Deforum工具還支持多種視頻格式輸出,用戶可以根據自己的需求選擇最适合的視頻格式進行輸出。

Denoiser/Noise predictor

在Stable diffusion模型中,denoiser扮演着核心角色。它在每個采樣步驟中對噪聲圖像進行預測,并通過采樣方法将其從圖像中減去。

Denoising strength

Denoising strength對圖像在img2img過程中的變化程度進行了控制。它的取值範圍是從0到1。當取值為0時,表示圖像沒有發生變化;當取值為1時,表示輸入圖像完全改變。

我們可以通過調節降噪強度來控制圖像轉換的效果。

Diffusion

Diffusion是一種人工智能圖像生成方法,它從随機圖像開始,逐漸去除噪音,直到生成清晰圖像。這種方法受到了物理學中擴散過程的朗之萬動力學公式的啟發。

DPM-Solver

Diffusion Probability Model Solver (DPM-Solver) 是一個新的采樣器算法。

Dreambooth

Dreambooth是一種訓練技術,用于修改checkpoint model。隻需5張圖片,您就可以使用它将一個人或一個風格注入模型中。

Dreambooth模型需要在提示中有一個觸發關鍵詞來觸發注入的主題或風格。

Dreambooth技術的特點包括:

隻需少量的圖片即可實現模型修改
可以輕松注入不同的主題或風格
提供了觸發關鍵詞來幫助用戶控制注入效果

指數移動平均(EMA)

指數移動平均(EMA)是指在Stable diffusion模型中,它表示最近訓練步驟的平均權重,而不是最後一個訓練步驟。

checkpoint model通常使用EMA權重來提高穩定性。EMA在計算機技術領域中被廣泛應用,有助于提高模型的穩定性和可靠性。

Embedding

Embedding是textual inversion的産物,是一種用于修改圖像的小文件。

通過在提示或負面提示中嵌入相關的關鍵詞,可以實現對圖像的修改。

在Stable diffusion中,embedding被用作prompt的編碼版本,它在去噪器的交叉注意力層中使用,以影響AI圖像的生成。

Extension

Extension是用來增強 AUTOMATIC1111 WebUI 的功能。舉例來說,ControlNet 就是通過擴展功能來實現的。通過擴展功能,用戶可以更加靈活地定制和使用 AUTOMATIC1111 WebUI,滿足不同的需求和場景。擴展功能的引入為系統的功能拓展提供了更多可能性,讓 AUTOMATIC1111 WebUI 變得更加強大和多樣化。

Euler

Euler是擴散模型的最簡單的采樣方法。它是一種常見的數值計算方法,用于解決微分方程模型。在計算機科學和工程領域中,Euler被廣泛應用于模拟和預測系統的行為。它的優勢在于簡單易懂,适用于各種類型的擴散模型。

Face ID

Face ID是一個利用InsightFace提取準确人臉特征的IP适配器模型。該模型以這些特征作為條件生成高度準确的自定義人臉圖像。

Fooocus

Fooocus是一款Stable Diffusion軟件,設計簡潔易用。它專注于提升用戶體驗,并且在提示和圖像生成方面表現出色。更重要的是,它是免費且開源的。

Heun

Heun是一種用于采樣的數值計算方法。它是對Euler方法的改進,能夠更準确地預測系統的演化。

然而,與Euler方法相比,Heun方法在每一步中需要兩次對噪音進行預測,因此計算速度比較慢,大約是Euler方法的兩倍。這種方法在某些特定情況下可能會被用于解決複雜的計算問題。

Hugging Face

Hugging Face是一個網站,專門用來托管大量AI模型。除此之外,他們還開發了一些工具,幫助用戶更方便地運行和托管這些模型。與Civitai相比,Hugging Face覆蓋了所有類型的AI模型,而不僅僅是Stable diffusion模型。

Hypernetwork

Hypernetwork是一種小型的神經網絡,用于改進U-net噪聲預測器的交叉注意力模塊。它類似于LoRAs和嵌入,都是用于修改檢查點模型的小型模型文件的技術。

InstantID

InstantID是一個利用ControlNet和IP适配器的模型,用于快速複制和美化人臉圖像。

InstantID模型利用先進的ControlNet技術和IP适配器,能夠快速、精準地複制和美化人臉圖像。

IP-adapter

IP适配器是一種利用圖像作為輸入來控制圖像生成的技術。它被用于生成與輸入圖像類似的圖像。

Karras Noise Schedule

Karras Noise Schedule是Karras論文提出的一種噪聲調度方法。

K-diffusion/K-sampler

K-diffusion/K-sampler是一種采樣方法,是由Katherine Crowson在她的k-diffusion GitHub倉庫中實現的。

這種采樣方法是用來處理圖像生成的技術,它可以幫助我們在圖像生成過程中更有效地獲得所需的樣本。通過K-diffusion/K-sampler,我們可以更好地控制圖像的生成過程,使得生成的圖像更加符合我們的預期。

Latent diffusion

Latent diffusion是指在潛在的空間中發生的擴散過程。

LCM LoRA

潛在一緻性模型(LCM)是一種新型的Stable diffusion模型。

LCM LoRA是一種經過LCM方法訓練的LoRA。這種LoRA可以與任何檢查點模型一起使用,以加快生成速度。

潛在擴散模型(LDM)

The latent Diffusion Model 潛在擴散模型(LDM)是一種人工智能模型,它能夠在潛在空間中執行擴散。

LMS

The Linear Multi Step method 線性多步法是一種用于解決常微分方程的方法。它旨在通過巧妙地利用先前時間步的值來提高精度。在AUTOMATIC1111中,線性多步法是其中一種可用的取樣方法之一。

LoRA

LoRA(Low-rank Adaptation)是一種用于修改checkpoint model的方法,使用一個名為LoRA的小文件。它們用于修改風格或為檢查點模型添加特殊效果。

Lycoris

Lycoris是LoRA的升級版。它具有更多的檢查點模型部分,因此更加靈活。你可以像訓練LoRA一樣訓練Lycoris。

ModelScope

ModelScope是一個強大的文本到視頻的轉換模型,它能夠根據輸入的文本内容生成精彩紛呈的短視頻剪輯。這個模型的應用領域非常廣泛,可以用于影視制作、廣告營銷、教育培訓等多個領域。

特點

高效快速:ModelScope采用先進的算法和技術,能夠快速而高效地将文本轉換為視頻,大大節省了制作視頻的時間成本。

個性定制:用戶可以根據自己的需求定制文本内容和視頻風格,讓生成的視頻更加符合個性化需求。

多場景應用:無論是商業宣傳、新聞報道還是教學輔助,ModelScope都能夠勝任,為用戶提供多種場景下的視頻生成解決方案。

應用場景

影視制作:制片人可以利用ModelScope将劇本中的對話和情節快速轉化為視頻,方便制作過程中的預覽和讨論。

廣告營銷:市場營銷人員可以利用ModelScope将産品特點和宣傳語快速轉化為視頻廣告,吸引更多的消費者關注。

教育培訓:教育機構可以利用ModelScope将教學内容轉化為生動有趣的視頻,增強學生的學習體驗和記憶效果。

ModelScope的出現,為文本到視頻的轉換提供了全新的解決方案,極大地豐富了視頻制作的可能性。

Negative embedding

Negative embedding是指在計算機領域中使用的一種嵌入技術,用于傳遞負面的提示或信息。這種技術通常被應用于各種機器學習和自然語言處理的任務中,以幫助系統更好地理解和處理負面情感或含義。負向嵌入的應用範圍非常廣泛,可以在情感分析、輿情監控和其他相關領域中發揮重要作用。

Negative Prompt

Negative Prompt是指向文本到圖像AI模型輸入的文本,用于描述您不希望在圖像中出現的内容。

Noise schedule

Noise schedule是指在采樣過程中确定圖像應該具有多少噪聲的過程。它代表了采樣器試圖達到的預期噪聲水平。

Prompt

Prompt是指如何描述文本輸入到圖像人工智能模型的過程,以及描述你期望在輸出圖像中看到的内容。

Prompt schedule

Prompt schedule是用在給定采樣步驟中使用的提示。Stable diffusion允許每個采樣步驟中的prompt都是不同的。

Regional prompter

Regional prompter是一種實用的擴展,它可以讓您為圖像的不同部分指定不同的提示信息。這個功能可以幫助用戶更輕松地理解圖像内容,并且提供更豐富的用戶體驗。想象一下,在一張包含多個人物的圖片中,您可以為每個人物添加獨特的提示,讓用戶可以更方便地了解每個人物的信息。這種個性化的提示功能可以大大提升用戶對圖片的交互體驗。

Sampling Method/Sampler

采樣方法或采樣器是Stable diffusion中用來去除圖像噪音的技術。它可能會對渲染速度産生影響,并對最終圖像産生微妙的影響。

Sampling steps

Sampling steps指的是采樣器進行離散化降噪時所經過的步驟數量。步驟數量的增加會提高結果的質量,但也會增加處理時間。建議将步驟設置至少為20。

SD.Next

SD.Next是一個免費的開源Stable diffusion軟件,可以在您的計算機本地安裝。它是基于AUTOMATIC1111開發的,許多AUTOMATIC1111的擴展也可以與SD.Next兼容并且可以同時使用。

SDXL

SDXL代表Stable Diffusion XL。它是一個帶有本地分辨率為1024×1024的Stable Diffusion模型,比Stable Diffusion v1.5高出4倍。

SDXL Turbo

SDXL Turbo是經過Turbo訓練方法訓練的SDXL模型。它能夠将圖像生成時間縮短約3倍。

Stable Diffusion

Stable Diffusion是指将自然語言輸入轉換為圖像的文本到圖像人工智能模型。它采用了具有frozen language encoder的潛在擴散模型。

Stable diffusion v1.4

Stable diffusion v1.4 是Stable diffusion模型的首個正式版本,于2022年8月正式發布。該版本默認圖像尺寸為512×512像素,為用戶提供了更加穩定和高效的擴散模型體驗。

Stable diffusion v1.5

Stable diffusion v1.5 是在 v1.4 的基礎上進行了一些改進。雖然改進的細節并不十分明顯,但用戶們已經開始廣泛使用 v1.5。新版本的默認圖片尺寸為 512×512 像素,帶來了更好的視覺體驗。這個改進為用戶帶來了更加流暢的使用體驗,并且在性能方面也有所提升。

Stable diffusion v2

Stable diffusion v2 是 v1 模型的升級版,擁有更大的畫面尺寸,達到了 768×768。該模型在遵循提示方面更加嚴格,使得提示更加具有挑戰性。v2 模型有兩個版本:v2 和 v2.1。

然而,随着時間的推移,v2 模型逐漸被用戶遺忘,目前使用它們的人數非常有限。

Stable diffusion XL

Stable diffusion XL 是一個全新的Stable diffusion模型,相比Stable diffusion v1.5 模型,它能夠生成更高質量、更大尺寸的圖片。這意味着用戶可以獲得更加清晰、更具有影響力的圖像。這一更新将為用戶帶來更好的使用體驗,為他們的工作和創作提供更多可能性。

Stable Zero123

Stable Zero123是一種可靠的擴散模型,能夠生成物體的全新視角或3D模型。

Textual inversion

Textual inversion是一種在檢查點模型中注入自定義主題或風格的方法。它通過創建一個新的關鍵字來施加影響,生成的結果被稱為嵌入。這個嵌入是一個小型文件。

與Dreambooth、LoRA和LyCORIS相比,Textual inversion不會對檢查點模型進行修改,因此其影響較小。

文字轉圖片 (txt2img)

文字轉圖片是指将文字提示轉換成圖片的過程。這項技術可以讓用戶将文字信息轉化為視覺形式,使得信息更加直觀和易于理解。例如,在設計中,可以将文本标題轉換為吸引人的圖片,增加頁面的吸引力和可讀性。另外,文字轉圖片還可以應用在驗證碼生成、海報設計、個性化圖片制作等多個領域。

Trigger keyword

在Dreambooth模型的訓練中,我們使用關鍵詞來觸發特定的操作。你需要在使用Dreambooth修改的檢查點模型的提示符中使用trigger關鍵字。

變分自編碼器(VAE)

變分自編碼器(VAE)是一種神經網絡,被用來在圖像的像素空間和潛在空間之間進行轉換。它是一種強大的工具,能夠有效地學習和表示圖像的特征,為圖像處理和生成提供了新的可能性。

U-Net

U-Net是一種神經網絡,用于在每個采樣步驟中預測噪音。它在Stable diffusion模型中扮演着重要的角色。一些微調方法,如LoRA和超網絡,的原理就是修改U-Net。

UniPC

UniPC(Unified Predictor-Corrector)是一種全新的采樣器。受到ODE求解器的預測-校正方法的啟發,它能夠在經過5-10步之後生成高質量的圖像。

Upscaler

Upscaler通常利用插值算法來增加圖像的像素數量,從而使圖像變得更加清晰。常見的插值算法包括雙線性插值、雙三次插值等,它們能夠有效地增加圖像的分辨率,提高圖像的質量。

添加新評論

暱稱
郵箱
網站