Stable Diffusion拡張機能、ControlNetのインストールと活用方法を解説

2023年6月4日2023年10月4日

URLをコピーしました！

画像生成AIであるStable Diffusionでは、プロンプト（呪文）によって画像の内容指示することで意図した構図、画風に近づけることが重要でした。

実際に生成される画像はランダム（ガチャ）要素が高く、かなりの回数を試行しないとイメージ通りの画像が生成されません。

しかし、Stable Diffusionの拡張機能であるControlNetを使用することで、構図やキャラクターのポーズを自在にコントロールすることが可能になります。

この記事では、ControlNetとStable Diffusionの基本から、具体的な応用例、そしてこれらの技術を最大限に活用する方法まで、幅広く解説します。

この記事でわかること

ControlNetの概要
ControlNetのインストール方法
ControlNetで使用できるモデルとその機能
ControlNetを使った画像の生成手順

また、当ブログのStable Diffusionに関する記事を以下のページでまとめていますので、あわせてご覧ください。

あわせて読みたい

Stable Diffusionの使い方を解説！｜ AIで画像生成する方法最近、Stable Diffusionっていう画像系AIが話題だよね使ってみたいけど、どうすればいいんだろう？ Stable Diffusionはオープンソースだから、自分でPythonのコードをダ…

Stable Diffusionの導入方法から応用テクニックまでを動画を使って習得する方法についても以下のページで紹介しています。

あわせて読みたい

Stable Diffusion 初心者から中級者が画像生成のテクニックを効率良く学べる方法を紹介 Stable Diffusionって最近話題だけど、専門用語が難しいしどこから手を付けていいかわからない… 家にゲーミングPCないし、環境のセットアップ方法を調べるのが面倒なん…

Stable Diffusionとは

Stable Diffusion（ステーブル・ディフュージョン）は2022年8月に無償公開された描画AIです。ユーザーがテキストでキーワードを指定することで、それに応じた画像が自動生成される仕組みとなっています。
NVIDIAのGPUを搭載していれば、ユーザ自身でStable Diffusionをインストールし、ローカル環境で実行することも可能です。
（出典：wikipedia）

Stable DiffusionのWeb UI AUTOMATIC1111

AUTOMATIC1111はStable Diffusionをブラウザから利用するためのWebアプリケーションです。

AUTOMATIC1111を使用することで、プログラミングを一切必要とせずにStable Diffusionで画像生成を行うことが可能になります。

Web UI AUTOMATIC1111のインストール方法

Web UIであるAUTOMATIC1111を実行する環境は、ローカル環境（自宅のゲーミングPCなど）を使用するか、クラウドコンピューティングサービスを利用する2通りの方法があります。

以下の記事ではそれぞれの環境構築方法について詳し解説していますので、合わせてご覧ください。

あわせて読みたい

Stable Diffusion Web UI のインストールから使い方までを解説｜ AUTOMATIC1111のの活用法今回は、Stable DiffusionのWeb UIであるAUTOMATIC1111の使い方について解説します。Web UIはブラウザから利用できるGUIで、画像AI Stable Diffusionの機能を直感的に操…

ControlNetとは

ControlNetとは、Stable DiffusionのWebUIであるAUTOMATIC1111に拡張機能としてインストールすることで、Stable Diffusionで生成される画像の内容を細かく制御することができる機能です。

従来のプロンプト（文字列）による指示では、絵の構図やキャラクターのポーズなどを細かく指示するのには限界があり、ランダム要素で自分の理想の絵が生成されるまでトライする必要がありました。

しかし、ControlNetを使用することで、事前に別の画像や深度情報を機械学習モデルを使って読み込み、その内容を指示として、生成する画像をコントロールできます。

また、ControlNetはWebUIの機能としてしようできるため、プログラミングや機械学習の知識を必要とせず、以下のようにGUI上で全ての機能を使用することができます。

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥79,800 （2024/07/27 01:24時点 | Amazon調べ）

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

ControlNetの使用例

ここからはControlNetの使用例について紹介します。

ポーズを指定する

ControlNetでは以下のようにキャラクターのポーズを棒人間を操作して作成することが可能です。

そしてこの棒人間で作ったポーズや、人物を絵のどのあたりの位置に配置するかといった構図についても指示することができます。

詳細は「Stable DiffusionでControlNetを使ってキャラクターのポーズを指定する方法」の項目をご覧ください。

手の形を補正する

以下のように、手のポーズライブラリと、それに対応した深度情報を読み込むことで、キャラクターの手の部分だけを修正することも可能です。

通常であれば、手の部分だけが失敗してしまった場合でも全体を生成し直す必要がありましたが、ControlNetを使うと手だけを任意の形状に修正することができます。

詳細は「Depth map library and poser」の項目をご覧ください。

あわせて読みたい

ControlNetのインストール

Stable DiffusionのWeb UIであるAUTOMATIC1111にControlNetのインストール方法について、以下の記事で詳しく説明しています。

後程、紹介するControlNetを使った画像生成で必要となりますので、あらかじめ済ませておいてください。

あわせて読みたい

ControlNetをAUTOMATIC1111にインストールする方法｜ Stable Diffusionの構図を自在にコントロール今回はAUTOMATIC1111の機能を拡張する、ControlNetのインストールする方法を解説します。ControlNetを使用することで、Stable Diffusionで生成するイラストの自由度が大…

ControlNetで使用できるモデルと機能

ControlNetでは様々な機能を持ったモデルが用意されています。

これらのモデルを事前にStable Diffusionの指定のフォルダにインストールすることで、WebUI上から使用することが可能になります。

モデルの機能一覧

各モデルの機能は以下となります。

モデル名	機能説明
control_v11p_sd15_canny	エッジ検出を強化したモデル。画像のエッジを強調して生成します。
control_v11p_sd15_mlsd	線分検出に特化したモデル。画像内の線分を明確に検出します。
control_v11f1p_sd15_depth	深度情報を取得するモデル。3D空間の深度を表現します。
control_v11p_sd15_normalbae	通常の画像生成に適したベーシックモデル。
control_v11p_sd15_seg	画像のセグメンテーションを行うモデル。物体の境界を特定します。
control_v11p_sd15_inpaint	画像の欠損部分を補完するモデル。
control_v11p_sd15_lineart	ラインアートの生成に特化したモデル。
control_v11p_sd15s2_lineart_anime	アニメ風のラインアートを生成するモデル。
control_v11p_sd15_openpose	人物のポーズを検出するモデル。
control_v11p_sd15_scribble	スクリブル（落書き）を基に画像を生成するモデル。
control_v11p_sd15_softedge	エッジの滑らかな画像を生成するモデル。
control_v11e_sd15_shuffle	画像の要素をシャッフルして新しい画像を生成するモデル。
control_v11e_sd15_ip2p	画像間の変換を行うモデル。
control_v11f1e_sd15_tile	タイル状の画像を生成するモデル。

ControlNetモデル一覧

各モデルの詳細は以下の公式リポジトリで解説されています。

GitHub

GitHub – lllyasviel/ControlNet-v1-1-nightly: Nightly release of ControlNet 1.1 Nightly release of ControlNet 1.1. Contribute to lllyasviel/ControlNet-v1-1-nightly development by creating an account on GitHub.

あわせて読みたい

モデルの入手と配置

モデルの入手方法とインストールについて解説します。

`.safetensors`ファイルを配置する

以下の.safetensorsファイルのダウンロードページにアクセスします。

あわせて読みたい

webui/ControlNet-modules-safetensors at main We’re on a journey to advance and democratize artificial intelligence through open source and open science.

以下のページから使用したいモデルの.safetensorsファイルをダウンロードします

ダウンロードした.safetensorsファイルを以下のディレクトリに配置してください。

.safetensorsファイルを配置するディレクトリ：
/（ルートディレクトリ）/stable-diffusion-webui/extensions/sd-webui-controlnet/models/

`.pth`ファイルを配置する

以下の.pthファイルのダウンロードページにアクセスします。

あわせて読みたい

lllyasviel/ControlNet-v1-1 at main We’re on a journey to advance and democratize artificial intelligence through open source and open science.

一覧の中から使用したいモデルの拡張子.pthのファイルをダウンロードします。

ダウンロードしたファイルを以下のディレクトリに配置してください。

.pthファイルを配置するディレクトリ：
/（ルートディレクトリ）/stable-diffusion-webui/extensions/sd-webui-controlnet/models/

また、こちらの一覧に無いモデルも順次ControlNetのアップデートにて標準機能で使えるモデルとして追加されていっています。各モデルの詳細な機能と使い方は、reference_onlyなど後程紹介する個別の項目をご覧ください。

あわせて読みたい

ControlNetの基本的な使い方

ここからは、具体的にControlnetを使って画像を生成する手順を解説します。

今回は例として、ControlNetで使用できるエッジ（輪郭）検出モデルであるcannyを例に説明します。

cannyは既に所有している別の画像を読み込んで画像のエッジを検出し、その情報を読み込んで別のモデルで生成する際に構図などを再現することが可能です。（もちろん同じモデルでも可能です）

モデルのダウンロード

まずcannyのモデルをダウンロードします。

以下のHugging Faceのページからモデルをダウンロードし、先ほど解説したStable Diffusionのディレクトリに配置してください。

あわせて読みたい

control_v11p_sd15_canny.pth · lllyasviel/ControlNet-v1-1 at main We’re on a journey to advance and democratize artificial intelligence through open source and open science.

cannyで検出したエッジ（輪郭）を元に画像を生成する手順

WebUIを起動したら、ControlNetの項目をクリックします。

ControlNetの項目が展開されたら、赤枠のSingle Imageのエリアにエッジ検出の対象となる画像をドラッグ＆ドロップします。

画像が読み込まれると、Single Imageに表示されます。

EnableとPixel PerfectのチェックボックスをONにします。

Preprocessorの項目をcannyに、Modelの項目をcontrol_v11p_sd15_cannyに設定します。
ここでcannyがリストに表示されない場合は、モデルの配置場所などを見直してください。

以上で最低限のパラメータ設定は完了しましたので、Generateをクリックして画像生成を実行します。

画像生成が完了すると、以下のように生成された画像と一緒に検出されたエッジ情報も表示されます。

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥79,800 （2024/07/27 01:24時点 | Amazon調べ）

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

生成された画像の比較

ここからは、実際にcannyを使って生成された画像を確認していきます。

元画像

こちらが元画像です。この画像をcannyで読み込み、エッジ（輪郭）を検出します。

検出されたエッジ

こちらが検出されたエッジです。人物と大まかな背景が正しく検出できています。

生成画像

こちらが先ほどcannyで検出したエッジを元に別のモデルで生成した画像です。モデルを変更していますので、絵のタッチは変わっていますが、構図はしっかりと再現できています。

アップスケールした画像

先ほどの画像をhires.fixで２倍の画像サイズで描画した画像です。アップスケールしても、正しく検出したエッジが反映されていることが確認されました。

今回はcannyを使って手順を解説しましたが、ControlNetにはほかにも様々な機能を持ったモデルが用意されています。

以降の項目で紹介しますので、ぜひ試してみてください。

あわせて読みたい

Stable DiffusionでControlNetを使ってキャラクターのポーズを指定する方法

Stable DiffusionとControlNetを使用して、特定のキャラクターポーズを生成する方法について詳しく説明しています。

デザインドール（DESIGN DOLL）でControlNetのポーズデータを作る方法

ControlNetで使用するポーズデータを作成するためのソフトウェア、デザインドール（DESIGN DOLL）の使い方について詳しく説明しています。

デザインドールを使用してポーズを作成し、そのデータをControlNetで読み込んで画像生成することで、絵の構図をコントロールすることができます。

あわせて読みたい

デザインドール（DESIGN DOLL）でControlNetのポーズデータを作る方法今回はControlNetで使用するポーズデータを作成するための、デザインドール（DESIGN DOLL）の使い方を解説します。デザインドールでポーズを作成し、そのデータをContro…

ControlNetでポーズデータを読み込んで画像を生成する

デザインドール等で作成したポーズデータを、ControlNetで利用可能なOpenPoseという機械学習ライブラリで読み込んで骨格検出を行い、その情報を元にStable Diffusionで特定のキャラクターポーズを生成するための手順を解説しています。

あわせて読みたい

Stable DiffusionでControlNetを使ってキャラクターのポーズを指定する方法今回はStable Diffusionで画像を生成する際に、ControlNetでイラストの構図を指定して実行する方法について解説します。ControlNetはStable DiffusionのWebUIであるAUTO…

Openpose Editorを使ってポーズデータを作成し、画像を生成する

AUTOMATIC1111の拡張機能であるOpenpose Editorのインストールと使い方について解説しています。

Openpose Editorは、ControlNetでOpenposeのモデルを使って画像生成をする際に、あらかじめ外部ツールでポーズデータを作成し、それを読み込んで使う必要があったのを解消します。

Openpose Editorを使用することで、AUTOMATIC1111のWebUI内でポーズデータの生成までを行うことが可能になります。

あわせて読みたい

Openpose Editorのデータを元にControlNetで構図やキャラのポーズを指定する方法今回はAUTOMATIC1111の拡張機能として公開されたOpenpose Editorのインストールと使い方について解説します。ControlNetでOpenposeのモデルを使って画像生成をする場合…

あわせて読みたい

Depth map library and poser（深度ライブラリ）

以下の記事では、ControlNetの拡張機能であるDepth map library and poserのインストール方法について詳しく解説しています。

Depth map library and poserは、AIで生成したイラストの手の部分だけを修正することができるため、AIで生成したイラストに手の部分だけがおかしいという問題がある場合には非常に有用なツールとなります。

あわせて読みたい

Depth map library and poserをインストールする方法｜ ControlNetで手のポーズを指定して生成する今回はAIで生成したイラストのキャラクターの手を修正したり、ポーズをしているできるControlNetの拡張機能、Depth map library and poserのインストール方法について解…

不自然な手を修正する方法

以下のでは、Depth map library and poserとControlNetを使って、手の描画を失敗した絵を修正する手順を詳しく説明しています。Depthライブラリで作成した深度データをControlNetで読み込み、それを元に手の部分を修正します。

あわせて読みたい

Stable Diffusionで生成したキャラクターの不自然な手を修正する方法｜ DepthライブラリとControlNetの… 今回はStable Diffusionで生成したイラストの不自然な手を修正する方法を解説します。Stable DiffusionのWebUIであるAUTOMATIC1111に、c and poser（深度ライブラリ）と…

reference_onlyで1枚の画像から同じキャラクターのイラストを生成する

ControlNetの機能であるreference_onlyを使用すると、LoRAのように追加学習等は行わずに、１枚の画像からそこに描かれているキャラクターを、別の構図、ポーズで描画することができます。
LoRAのデータセットとして使用する画像の生成等にも使用することができます。

あわせて読みたい

Stable DiffusionでControlNetのreference_onlyでキャラを固定して画像生成する方法今回はControlNetの機能として利用できるreference_onlyについて解説します。reference_onlyを使用すると、1枚の参照画像を用いて生成する画像のスタイルや特徴をより細…

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥79,800 （2024/07/27 01:24時点 | Amazon調べ）

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

tile_resampleで書き込み量を増やす

ControlNetで使用できるプリプロセッサ、tile_resampleを使ってイラストの書き込み量を増やす方法について、以下の記事で解説しています。

書き込み量を増やす以外にも、画像サイズを拡大する場合に元の絵柄を保持するという役割もあります。アップスケーラーとの併用でも活用できます。

あわせて読みたい

ControlNetのtile_resampleで書き込み量を増やす方法 ControlNetで使用できるプリプロセッサ、tile_resampleを使って、元の画像の絵柄を保ったまま書き込み量を増やす方法について解説します。Hires.fix等でアップスケール…

Stable Diffusionのテクニックを効率よく学ぶには？

カピパラのエンジニア

Stable Diffusionを使ってみたいけど、ネットで調べた情報を試してもうまくいかない…

猫のエンジニア

そんな時は、操作方法の説明が動画で見られるUdemyがおすすめだよ！

動画学習プラットフォームUdemyでは、画像生成AIで高品質なイラストを生成する方法や、AIの内部で使われているアルゴリズムについて学べる講座が用意されています。

Udemyは講座単体で購入できるため安価で（セール時1500円くらいから購入できます）、PCが無くてもスマホでいつでもどこでも手軽に学習できます。

Stable Diffusionに特化して学ぶ

Stable Diffusionに特化し、クラウドコンピューティングサービスPaperspaceでの環境構築方法から、モデルのマージ方法、ControlNetを使った構図のコントロールなど、中級者以上のレベルを目指したい方に最適な講座です。

ジェネレーティブAI（画像生成AI）入門【Stable Diffusion】-プロンプトでハイクオリティな画像制作が可能

画像生成AIの仕組みを学ぶ

画像生成AIの仕組みについて学びたい方には、以下の講座がおすすめです。
画像生成AIで使用される変分オートエンコーダやGANのアーキテクチャを理解することで、よりクオリティの高いイラストを生成することができます。

AIによる画像生成を学ぼう！【VAE / GAN】 -Google ColabとPyTorchで基礎から学ぶ生成モデル-

まとめ

今回はControlNetのインストール方法と活用方法について解説しました。

ControlNetを導入することで生成できる画像の自由度が大幅に向上します。今後もこの記事でControlNetの新機能に関する解説を追加していきます。

また、以下の記事で効率的にPythonのプログラミングスキルを学べるプログラミングスクールの選び方について解説しています。最近ではほとんどのスクールがオンラインで授業を受けられるようになり、仕事をしながらでも自宅で自分のペースで学習できるようになりました。

スキルアップや副業にぜひ活用してみてください。

あわせて読みたい

Pythonが学べるプログラミングスクール5選｜初心者にもおすすめプログラミングスクールってたくさんあって、どのスクールを選んだらいいのかな？自分のキャリアアップに必要なカリキュラムがあるプログラミングスクールを探したいん…

スクールではなく、自分でPythonを習得したい方には、いつでもどこでも学べる動画学習プラットフォームのUdemyがおすすめです。

講座単位で購入できるため、スクールに比べ非常に安価（セール時1200円程度～）に学ぶことができます。私も受講しているおすすめの講座を以下の記事でまとめていますので、ぜひ参考にしてみてください。

あわせて読みたい