今回はStable Diffusionで使えるUpscaler(アップスケーラー)について解説します。
Upscalerを使うことにより画像のサイズを拡大するだけではなく、書き込み量を増やすことで高精細な画像を生成することが可能です。
Stable Diffusionでは様々なUpscalerが用意(一部は拡張機能)されており、それぞれの機能に特徴がありますので、用途に合わせて選んでみてください。
- Stable Diffusionで使用できるアップスケーラの種類
- 各アップスケーラの特徴
- 各アップスケーラの詳細な使用方法と効果
また、当ブログのStable Diffusionに関する記事を以下のページでまとめていますので、あわせてご覧ください。
Stable Diffusionの導入方法から応用テクニックまでを動画を使って習得する方法についても以下のページで紹介しています。
Stable Diffusionとは
Stable Diffusion(ステーブル・ディフュージョン)は2022年8月に無償公開された描画AIです。ユーザーがテキストでキーワードを指定することで、それに応じた画像が自動生成される仕組みとなっています。
NVIDIAのGPUを搭載していれば、ユーザ自身でStable Diffusionをインストールし、ローカル環境で実行することも可能です。
(出典:wikipedia)
Stable DiffusionのWeb UI AUTOMATIC1111
AUTOMATIC1111はStable Diffusionをブラウザから利用するためのWebアプリケーションです。
AUTOMATIC1111を使用することで、プログラミングを一切必要とせずにStable Diffusionで画像生成を行うことが可能になります。
Web UI AUTOMATIC1111のインストール方法
Web UIであるAUTOMATIC1111を実行する環境は、ローカル環境(自宅のゲーミングPCなど)を使用するか、クラウドコンピューティングサービスを利用する2通りの方法があります。
以下の記事ではそれぞれの環境構築方法について詳し解説していますので、合わせてご覧ください。
hires.fix
最初に紹介するのは、Stable Diffusionで生成した画像を高精細化するAUTOMATIC1111の機能、hires.fixです。
hires.fixは、小さいサイズで生成した画像をアップスケールすることで、より高精細な画像を作成することが可能です。
追加のインストール無しで使用でき、後程紹介する様々なアップスケーラーと組み合わせて使用することができます。
hires.fixの詳細については、以下の記事で解説しています。
ControlNet tile_resample
tile_resampleはControlNetのプリプロセッサとして使用でき、元の画像の絵柄を保ったまま書き込み量を増やすことができます。
tile_resampleは、アップスケールする際に絵柄が変わってしまうといった問題を解決することができますので、単体でも使用できますが、他のアップスケーラと組み合わせて使用する場合にも有効です。
以下が元画像(左)とtile_resampleでのアップスケール後(右)の比較です。
アップスケール後の方が圧倒的に書き込み量が増えているのが確認できるかと思います。
絵のタッチを変えずに書き込み量を大幅に増やすことが可能!
私自身も、書き込み量を増やす際に最もよく使用する方法です。
tile_resampleの詳細については、以下の記事で解説しています。
MultiDiffusion
MultiDiffusionはAUTOMATIC1111の拡張機能として使えるアップスケーラです。
img2imgを使用して画像をアップスケールしたい場合に、元の画像の構図を保ったまま画像サイズを拡大、高精細化することができるアップスケーラです。
画像をいくつかの領域に分割して処理するため、VRAM容量の少ないグラフィックボードでも大サイズの画像が生成できます。
VRAM 8GBのグラフィックボードでも1024×1024以上の解像度で生成が可能!
MultiDiffusionの詳細については、以下の記事で解説しています。
LLuL(Local Latent upscaLer)
LLuL(Local Latent upscaLer)は、画像生成時に潜在(Latent)空間で学習を行う拡散モデルを用い、指定した部分だけをアップスケールすることが可能です。
GUI上で適用範囲を簡単に指定できますので、背景や服のみに適用したい場合に有効です。
服や背景に限定してアップスケールできる。
LLuLの詳細については、以下の記事で解説しています。
LoRA
Detail Tweaker LoRA
Detail Tweaker LoRAは、アニメ調のイラストで元の画像の構図を保ったまま、書き込み量を簡単に増やすことができるLoRAです。
特にパラメータ設定等は不要で、LoRAのトリガーワードを追加するだけで簡単に使用できます。
また、書き込み量を増やす効果としては、今回紹介したアップスケーラーの中では一番効果があります。
Detail Tweaker LoRAの詳細については、以下の記事で解説しています。
Add More Details
Add More Detailsは、Detail Tweaker LoRAと同様に書き込み量を増やすLoRAですが、フォトリアル系にも有効です。
フォトリアル系の生成画像で、髪の毛や服などを精細に描画したい場合に有効です。
Add More Detailsの詳細については、以下の記事で解説しています。
flat LoRA
flat LoRAはDetail Tweaker LoRA同様、ディティールアップできるLoRAです。
本来は画像をよりフラットな方法に修正するLoRAですが、適用量をマイナスに設定することで書き込み量を増やすことができます。
こちらもトリガーワードを入れるだけで簡単に使用できますので、手軽にディティールを追加したい方におすすめです。
flat LoRAの詳細については、以下の記事で解説しています。
Stable Diffusionのテクニックを効率よく学ぶには?
Stable Diffusionを使ってみたいけど、ネットで調べた情報を試してもうまくいかない…
そんな時は、操作方法の説明が動画で見られるUdemyがおすすめだよ!
動画学習プラットフォームUdemyでは、画像生成AIで高品質なイラストを生成する方法や、AIの内部で使われているアルゴリズムについて学べる講座が用意されています。
Udemyは講座単体で購入できるため安価で(セール時1500円くらいから購入できます)、PCが無くてもスマホでいつでもどこでも手軽に学習できます。
Stable Diffusionに特化して学ぶ
Stable Diffusionに特化し、クラウドコンピューティングサービスPaperspaceでの環境構築方法から、モデルのマージ方法、ControlNetを使った構図のコントロールなど、中級者以上のレベルを目指したい方に最適な講座です。
画像生成AIの仕組みを学ぶ
画像生成AIの仕組みについて学びたい方には、以下の講座がおすすめです。
画像生成AIで使用される変分オートエンコーダやGANのアーキテクチャを理解することで、よりクオリティの高いイラストを生成することができます。
まとめ
今回はStable Diffusionで使えるUpscalerについて解説しました。
各UpscalerによってVRAMの使用量なども変わってきますので、用途に応じて使い分けてみてください。
また、プロンプトの作成が難しいと思われている方には、AIでプロンプトを自動生成するのがおすすめです。
「StableDiffusionのプロンプト(呪文)を自然言語処理モデルGPT-3(Catchy)で自動生成する方法」で詳細を解説していますので、あわせてご覧ください。
それでは、また次の記事でお会いしましょう。
コメント