Stable Diffusion Web UI の使い方を解説! | AUTOMATIC1111のインストールから拡張機能まで

  • URLをコピーしました!

今回は、Stable DiffusionのWeb UIであるAUTOMATIC1111の使い方について解説します。

Web UIはブラウザから利用できるGUIで、画像AI Stable Diffusionの機能を直感的に操作することができます。

Web UIを導入することで、機械学習やプログラミングの知識がなくてもStable Diffusionを使える。

中でもAUTOMATIC1111は最もユーザーが多く、高機能で使いやすいWeb UIとなっていますので、ぜひ画像生成に活用してみてください。

また、当ブログのStable Diffusionに関する記事を以下のページでまとめていますので、あわせてご覧ください。

目次

Stable Diffusionとは

Stable Diffusion(ステーブル・ディフュージョン)は2022年8月に無償公開された描画AIです。ユーザーがテキストでキーワードを指定することで、それに応じた画像が自動生成される仕組みとなっています。
NVIDIAのGPUを搭載していれば、ユーザ自身でStable Diffusionをインストールし、ローカル環境で実行することも可能です。
(出典:wikipedia)

Web UI AUTOMATIC1111

Stable Diffusionはオープンソースで公開されているプロジェクトであるため、Stable Diffusionを使って画像生成を行うためには、ユーザーが自身でソースコードをダウンロードして実行環境を作成する必要があります。

入力するプロンプト(呪文)やパラメータを設定するためには、Pythonなどのプログラミング言語を使ってコーディングする必要があります。

プログラミングの知識がない方が使用するには、かなりハードルが高くなってしまいます。

そんな時に役立つのがGUI(グラフィカル・ユーザー・インタフェース)です。

GUIとは、グラフィカルユーザーインターフェース(Graphical User Interface)の略で、人間がコンピュータやソフトウェアと対話するためのインターフェースの一種です。

これは、一般的にマウス、キーボード、タッチスクリーンなどの入力デバイスを用いて、ウィンドウ、アイコン、メニュー、ボタンなどの視覚的な要素を操作することで、ソフトウェアの機能を使ったり、コンピュータの操作を行ったりするための方法を提供します。

AUTOMATIC1111はStable Diffusionをブラウザから利用するためのGUIアプリケーションです。AUTOMATIC1111を使用することで、プログラミングを一切必要とせずにStable Diffusionで画像生成を行うことが可能になります。

AUTOMATIC1111 Web UIの操作画面

Web UI AUTOMATIC1111は、開発者のAUTOMATIC氏によってものすごいスピードでアップデートが繰り返されており、また世界中の有志の方達が開発した拡張機能も多数リリースされています。

現在、Stable DiffusionのWeb UIの中では最も高機能でメジャーなプロジェクトとなっています。

AUTOMATIC1111の公式リポジトリは以下となります。

Web UI AUTOMATIC1111の実行環境とインストール手順

Stable DiffusionとWeb UIはプログラムがオープンソースとして無料公開されているため、そのプログラムを実行する環境を用意する必要があります。
また、Stable Diffusionを実行するマシンには、高性能なGPUを搭載する必要があります。

GPUが必要な理由

AI画像生成の技術、特にStable Diffusionなどの最新の技術は、大量の計算能力を必要とします。

その理由としては、これらのAIモデルが膨大なデータ量を扱い、高度な計算を行うためで、そのプロセスの速度と効率を改善するためには、高性能なグラフィックボード(GPU)が必要となります。

高性能なGPUが必要とされる理由
  • 並列処理能力: GPUは元々3Dゲームでの複雑な画像処理を行うために開発されたもので、大量の並行処理が可能です。これは、AI画像生成のようなタスクにおいても有用で、大量のデータ点(ピクセル)に対して同時に演算を行うことが可能です。
  • 高速なメモリアクセス: GPUは高速な専用メモリ(GDDR6など)を搭載しており、大量のデータを素早く処理することができます。これは、画像の各ピクセルに対して複雑な計算を行うAI画像生成において非常に重要な機能です。
  • ディープラーニングライブラリの対応: NVIDIAのCUDAなどのライブラリはGPUに特化しており、TensorFlowやPyTorchなどの主要なディープラーニングライブラリもこれらをサポートしています。これにより、ディープラーニングの計算を効率的に、かつ高速に行うことができます。

Stable Diffusion Web UIを実行するのにおすすめの環境

Stable Diffusionを実行するのにおすすめの環境は、以下の3つがあります。
予算や用途に合わせて選択してください。

Stable Diffusionの実行環境
  • ローカルPC(グラフィックボードを搭載したゲーミングPCなど)
  • Google Colaboratory
  • Paperspace

ローカルPC

ローカルPCは自宅にあるゲーミングPCなどのグラフィックボードを搭載したPCにStable Diffusionをインストールして使用するケースです。

Stable Diffusion快適に動作させるグラフィックボードは10万円程度~とかなり初期投資が必要になりますが、マシンを用意すればあとは電気代のみで好きな時に好きなだけ使用することが可能です。

初期投資を行える場合は最も理想的な環境となります。

ローカル環境でStable Diffusion及びAUTOMATIC1111 Web UIを使用する方法を、以下の記事で解説しています。

Google Colaboratory

Google Colaboratoryは、Googleが提供しているクラウドコンピューティングサービスです。

2023年5月現在、Google ColaboratoryでのStable Diffusionの使用は有料プラン契約者のみとなりました。無料プランでStable Diffusionを利用すると、アカウント停止などの措置が取られる可能性がありますのでご注意ください。

無料プランでのStable Diffusionは利用不可。

Google Colaboratoryの有償プランであるPro以上では、クレジット課金制で高性能なGPUを搭載したマシンをブラウザから使用できます。

処理はクラウドで実行されますので、低スペックのPCでも外出先からでもインターネットさえ使えればいつもで画像生成ができるのは大きなメリットです。

ただし有償プランでも、クレジットを使い切ってしまうと、それほどスペックの高くないフリーマシンしか使用できませんのでご注意ください。

Google Colaboratoryではストレージが用意されていないため、Web UIの設定や拡張機能が毎回リセットされてしまいます。
そのため、使用開始時に毎回自動でインストール、設定されるようJupyter Notebookにコードで実装しておく必要があります。(それなりに知識が必要です)

また、しばらく操作していないとセッションが切れてしまうため、常にブラウザを開いておく必要があります。

Google ColaboratoryでStable Diffusion及びAUTOMATIC1111 Web UIを使用する方法を、以下の記事で解説しています。

Paperspace

Paperspaceはアメリカのベンチャー企業が提供するクラウドコンピューティングサービスです。

Google Colaboratoryと同様に、ネット環境さえあればブラウザからいつでもどこでもStable Diffusionを利用することができます。

Google Colaboratoryとの最大の違いは、月額(月8ドル~)の定額制で高性能マシンが使い放題という点です。

ただし、Paperspaceにも一部制約があり、提供されているマシンの台数が決まっているため、マシンが空いていない場合には待ち時間が発生します。

2023年5月現在はユーザー数が増えてきているせいか、マシンの空きがない日が多いですが、しばらくブラウザの前でリロードボタンをクリックしていると、数分の待ちで借りられる時が多いです。

私自身も現在はPaperspaceメインで使用しておりおすすめです。

PaperspaceでStable Diffusion及びAUTOMATIC1111 Web UIを使用する方法を、以下の記事で解説しています。

Stable Diffusion Web UIで使用する学習済みモデル

Stable Diffusionで画像生成を行うためには、事前にたくさんの画像を使ってトレーニングされたモデルを用意する必要があります。

Web上には様々なモデルが公開されており、自分が生成したい画像に適したモデルを入手、使用して画像生成します。

モデルによって生成されるキャラクターや背景の描写などに特徴がありますので、用途に合ったモデルを探してみてください。

モデル紹介

フォトリアル系

実写に近いフォトリアル系のおすすめモデルを、以下の記事で解説しています。

アニメ調

アニメ調のイラストが生成できるおすすめモデルを、以下の記事で解説しています。

自分でマージモデルを作成する方法

Stable Diffusionでは、すでに公開されているモデルを入手して使用する以外に、自分の用途に合わせ、既存のモデルを掛け合わせて独自のマージモデルを作成することができます。

そして、AUTOMATIC1111 Web UIの機能を使うと、機械学習の専門知識無しにモデルの比率を指定するだけで、マージモデルを生成してくれます。

マージモデルの作成方法は、以下の記事で解説しています。

画像を生成するためのプロンプト(呪文)を作成する

Stable Diffusionの実行環境とモデルを用意したら、最後に画像を生成するためのプロンプト(呪文)を作成します。

プロンプトとは、画像AIにどのような絵を生成させるか指示をするテキストデータになります。
このプロンプトの内容によって、生成される絵のクオリティが大きく左右されるため、重要な要素となります。

フォトリアル系とアニメ調のイラストとでは、プロンプトの特性が大きく異なります。

フォトリアル系プロンプト

フォトリアル系で使用できるプロンプト(呪文)は以下の記事で解説しています。

アニメ調プロンプト

アニメ調で使用できるプロンプト(呪文)は以下の記事で解説しています。

自然言語モデル(LLM)GPT-3でプロンプトを生成する

OpenAIの自然言語モデル(LLM)であるGPT-3を、画像生成AI用にチューニングしたAIツールCatchyで使用できます。特に背景の描写に対する細かい指示などを作成する際に有効です。

Web UIでの画像生成の実行

画像生成の方法には、先ほど解説したテキスト(プロンプト)によるtxt2imgと、テキスト+画像で指示をするimg2imgの2種類があります。

txt2imgでの画像生成

テキストで指示するtxt2imgは以下の記事で解説しています。

記事はローカル環境に関する解説ですが、Web UI起動後のプロンプト、パラメータ入力に関しては全ての環境共通で使用できます。

img2imgでの画像生成

テキスト+画像で指示を出すimg2imgについては、以下の記事で解説しています。

img2imgはテキストだけでは難しい、絵の構図などに関する細かい指示も出すことが可能です。

追加学習LoRAでキャラクターやコスチュームを固定する

LoRA(Low-Rank Adaptation)はStable Diffusionの既存モデルを、20枚程度の画像を用いて追加学習させることにより微調整することができる仕組みです。

LoRAを用いることにより、キャラクターや服装などの特徴を固定して画像生成することが可能になります。

学習済みのLoRAファイルを入手する

Civitaiなどのサイトでは、他のユーザーが学習を行ったLoRAファイルを公開しています。

これらのファイルをダウンロードすることで、自分で追加学習を行うことなく手軽に利用することができます。

LoRAで追加学習を行い、LoRAファイルを自作する

少しハードルは上がりますが、自ら学習用の画像を用意して追加学習を行うことで、自分の好みのキャラクターのLoRAファイルを作成することが可能です。

LoRA追加学習の実行方法

LoRAの学習にはsd-scriptsというツールを使用します。
sd-scriptsの環境構築方法を、以下の記事で解説しています。

sd-scriptsを使って追加学習を実行する方法を、以下の記事で解説しています。

LoRA学習用データセット

LoRA使い方を習得する際に、ハードルになるのが学習用の教師データの作成です。
特定のキャラクターを色々な角度、ポーズから撮影、描写した画像を数十枚集める必要がありますが、著作権の問題もあり苦労します。

そこで、企業が非商用であれば無料で使用できるLoRA用データセットを使用するのがおすすめです。
SSS合同会社が無料で公開しているデータセットとその使用方法を、以下の記事で解説しています。

LoRAファイルを使って画像を生成する

入手したLoRAファイルを使って、実際に画像を生成する方法を以下の記事で解説しています。

Web UIの拡張機能

AUTOMATIC1111 Web UIでは、世界中の有志が開発した拡張機能を使用することで、大幅に機能をアップグレードすることができます。
また、拡張機能のインストールはほとんどのものがWeb UI上で追加できます。

今回は公開されている多数の拡張機能の中で、特に有効なものを紹介します。

ControlNet

ControlNetはAUTOMATIC1111 Web UIに様々な機能を追加できるライブラリです。

ControlNetを使用することで、イラストの構図やキャラクターのポーズを自在にコントロールしたり、一部分だけを修正したりすることが可能です。

ControlNetのインストール方法は以下の記事で解説しています。

絵の構図とキャラクターのポーズを指定する

ControlNetを使ってキャラクターのポーズを指定して画像生成を行う方法を、以下の記事で解説しています。

OpenPose Editorでポーズデータを作成する

ControlNetで使用するポーズデータを、Web UI上で作成できるポーズエディタです。

reference_onlyで1枚の画像から同じキャラクターのイラストを生成する

ControlNetの機能であるreference_onlyを使用すると、LoRAのように追加学習等は行わずに、1枚の画像からそこに描かれているキャラクターを、別の構図、ポーズで描画することができます。
LoRAのデータセットとして使用する画像の生成等にも使用することができます。

アップスケーラ

アップスケーラは、一度生成した画像を拡大、高精細化する機能です。

hires.fix

hires.fixはAUTOMATIC1111 Web UIに標準搭載されている機能です。
hires.fixを使うことで画像サイズを大きくするだけでなく、書き込み量を大幅に増やして高精細な画像にすることが可能です。

LLuL(Local Latent upscaler)

LLuLは画像の一部だけにディティールを追加したい場合に使用できる機能です。
背景や人物の服の装飾のみ、といった適用個所を限定したアップスケールを行い場合に有効です。

MultiDiffusion

MultiDiffusionはimg2imgで画像生成時にも使用可能なアップスケーラです。
気に入った画像を大サイズで、かつ書き込み量を増やしたい場合に有効です。

Stable Diffusionのローカル環境

Stable Diffusionを使用する際にGoogle ColaboratoryやWebサービスを利用されている方も多いかと思います。しかし、最近Google Colabの無料での使用範囲が大きく制限されたり、Webサービスでは月額費用がかかったりします。

欲しいイラストを生成するにはかなりの回数をトライする必要があるため、これらの制約に縛られることなく使用できるローカル環境を構築するのがおすすめです。

ローカルのPCに搭載するグラフィックボード

ローカルマシンで実行する上で重要になってくるのがグラフィックボードです。
Stable Diffusionでイラストを生成するために実行される推論処理を、グラフィックボード上のGPUを使って大幅に高速化することができます。
トライする回数が増えれば品質の高いイラストが生成される可能性が上がりますので、グラフィックボードは重要です。

Stable Diffusionで使用するためのGPUは2022年に新たにNVIDIAから発売されたRTX4000シリーズのGPUとVRAM12GB以上のものがおすすめです。最近は半導体不足も一服したこともあり、新しい製品ながら価格が下がりつつあります。

エントリーモデルのGPU

予算を安く抑えたい方向けにはRTX4070を搭載したグラフィックボードがおすすめです。

予算に余裕がある方向け ミドル~ハイエンド

予算に余裕がある方向けにおすすめのRTX 4080、ビデオメモリ16GB以上搭載のモデルです。

大サイズの画像を高速に生成したい方向けのハイエンドGPU、RTX 4090 ビデオメモリ24GB搭載モデルです。

予算とパフォーマンスに合わせて選んでみてください。

画像生成AIについて学ぶ

動画学習プラットフォームUdemyでは、画像生成AIで高品質なイラストを生成する方法や、AIの内部で使われているアルゴリズムについて学べる講座が用意されています。
Udemyは講座単体で購入できるため安価で(セール時1500円くらいから購入できます)、PCが無くてもスマホでいつでもどこでも手軽に学習できます。

画像生成AIの使い方を学ぶ

Stable DiffusionやMidjourneyの使い方や活用方法を勉強したい方には、以下の講座がおすすめです。

icon icon 【文字からイラスト画像を生成】素人でもプロ並みの絵を作れる画像生成AIツール講座【ChatGPTも活用】 icon

画像生成AIの仕組みを学ぶ

画像生成AIの仕組みについて学びたい方には、以下の講座がおすすめです。
画像生成AIで使用される変分オートエンコーダやGANのアーキテクチャを理解することで、よりクオリティの高いイラストを生成することができます。

icon icon AIによる画像生成を学ぼう!【VAE / GAN】 -Google ColabとPyTorchで基礎から学ぶ生成モデル- icon

UdemyのStable Diffusionなど、AIアート関連の講座は海外のものも多いですが、ブラウザのリアルタイム翻訳機能を使うことで日本語字幕付きで視聴できます。

Udemyの海外講座の字幕を日本語化する方法

まとめ

今回は、Stable DiffusionのWeb UIであるAUTOMATIC1111の使い方について解説しました。

現在でもWeb UIは凄まじいスピードで開発されており、日々新しい拡張機能が登場していますので、今後も随時このページで最新情報をお届けしていく予定です。

また、以下の記事で効率的にPythonのプログラミングスキルを学べるプログラミングスクールの選び方について解説しています。最近ではほとんどのスクールがオンラインで授業を受けられるようになり、仕事をしながらでも自宅で自分のペースで学習できるようになりました。

スキルアップや副業にぜひ活用してみてください。

スクールではなく、自分でPythonを習得したい方には、いつでもどこでも学べる動画学習プラットフォームのUdemyがおすすめです。

講座単位で購入できるため、スクールに比べ非常に安価(セール時1200円程度~)に学ぶことができます。私も受講しているおすすめの講座を以下の記事でまとめていますので、ぜひ参考にしてみてください。

それでは、また次の記事でお会いしましょう。

よかったらシェアしてね!
  • URLをコピーしました!
目次