img2imgで高画質化できるMultiDiffusionの使い方｜ Stable Diffusion拡張機能の活用法

2023年5月21日2023年10月19日

URLをコピーしました！

カピパラのエンジニア

グラボのVRAMが少ないから、サイズの小さい画像しか生成できないのがつらい…

猫のエンジニア

小さいサイズだとキャラの顔が崩れちゃうんだよね

今回はこんな時に便利なStable DiffusionのWebUI、AUTOMATIC1111の拡張機能として使えるMultiDiffusionを紹介します。

MultiDiffusionはimg2imgで画像生成する際にも使用できるアップスケーラで、元の画像の構図やタッチを保ったまま画像サイズを拡大、高精細化することができます。

MultiDiffusionは、VRAM容量が少ない環境でも高品質な画像を生成できるように工夫されています。

特に、分割してアップスケールする機能や、VRAM使用量を抑えるための設定が用意されています。

これにより、低スペックのマシンでも手軽に高品質な画像生成を行うことが可能です。

img2imgで元の構図を維持したまま高精細化が可能。

今回はアニメ調画像を例に解説しますが、アップスケーラの種類を変更することでフォトリアル系の画像にも使えますので、ぜひ活用してみてください。

この記事でわかること

MultiDiffusionの概要
MultiDiffusionのインストール方法
MultiDiffusionの使用方法とその効果

また、当ブログのStable Diffusionに関する記事を以下のページでまとめていますので、あわせてご覧ください。

あわせて読みたい

Stable Diffusionの使い方を解説！｜ AIで画像生成する方法最近、Stable Diffusionっていう画像系AIが話題だよね使ってみたいけど、どうすればいいんだろう？ Stable Diffusionはオープンソースだから、自分でPythonのコードをダ…

Stable Diffusionの導入方法から応用テクニックまでを動画を使って習得する方法についても以下のページで紹介しています。

あわせて読みたい

Stable Diffusion 初心者から中級者が画像生成のテクニックを効率良く学べる方法を紹介 Stable Diffusionって最近話題だけど、専門用語が難しいしどこから手を付けていいかわからない… 家にゲーミングPCないし、環境のセットアップ方法を調べるのが面倒なん…

Stable Diffusionとは

Stable Diffusion（ステーブル・ディフュージョン）は2022年8月に無償公開された描画AIです。ユーザーがテキストでキーワードを指定することで、それに応じた画像が自動生成される仕組みとなっています。
NVIDIAのGPUを搭載していれば、ユーザ自身でStable Diffusionをインストールし、ローカル環境で実行することも可能です。
（出典：wikipedia）

Stable DiffusionのWeb UI AUTOMATIC1111

AUTOMATIC1111はStable Diffusionをブラウザから利用するためのWebアプリケーションです。

AUTOMATIC1111を使用することで、プログラミングを一切必要とせずにStable Diffusionで画像生成を行うことが可能になります。

Web UI AUTOMATIC1111のインストール方法

Web UIであるAUTOMATIC1111を実行する環境は、ローカル環境（自宅のゲーミングPCなど）を使用するか、クラウドコンピューティングサービスを利用する2通りの方法があります。

以下の記事ではそれぞれの環境構築方法について詳し解説していますので、合わせてご覧ください。

あわせて読みたい

Stable Diffusion Web UI のインストールから使い方までを解説｜ AUTOMATIC1111のの活用法今回は、Stable DiffusionのWeb UIであるAUTOMATIC1111の使い方について解説します。Web UIはブラウザから利用できるGUIで、画像AI Stable Diffusionの機能を直感的に操…

img2img（Image-to-Image Translation）とは

Stable Diffusionのimg2img（Image-to-Image）機能は、入力画像とテキストプロンプトに基づいて新しいAI画像を生成する手法です。

この機能の特徴として、出力画像は入力画像の色と構図を維持します。

背景と人物の位置関係など、文章では指示が難しい構図に対する指示も画像で簡単に指示できる。

入力画像は詳細である必要はなく、重要なのは色と構図ですので、紙に簡単に描いた落書きのような絵をスマホで撮影し、それを元に精細なイラストを生成するといった使い方も可能です。

img2imgのメリット

簡単なスケッチから高品質な画像を生成: img2imgは、簡単な手書きのスケッチのようなラフな画像を高品質なイラストに変換することができます。
色と構図の維持: 出力画像は、入力画像の色と構図を維持するため、元の画像に忠実に画像を生成できます。複雑なプロンプトを書かずに詳細な指示が可能です。
ユーザーフレンドリーなUI: AUTOMATIC1111 GUIを使用すると、参照させたい画像をWebUI上にドラッグ＆ドロップするだけで指示が完了します。

img2imgについては以下の記事で詳細を解説しています。

あわせて読みたい

Stable Diffusionでimg2imgを使って画像を生成する方法今回はAUTOMATIC1111でimg2imgを使って画像を生成する手順を解説します。img2imgを使うと、プロンプトの文字列での指示に加えて、画像を読み込んで構図を細かく指示する…

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

口コミを見る

Amazon

＼楽天ポイント4倍セール！／

楽天市場

＼ポイント5%還元！／

Yahooショッピング

メルカリ

ポチップ

MultiDiffusionとは

MultiDiffusionはimg2imgモデルの拡張版で、高解像度の画像を高速に生成する機能です。

MultiDiffusionは、大きな画像を小さな領域に分割し、それぞれを個別に処理してから再度結合するタイル状のVAEを採用しています。

各タイルは独立して処理されるため、計算リソースを効率的に使用でき、全体としての処理速度が向上します。また、各タイルでの処理が独立しているため、並列処理が可能です。

このアプローチにより、少ないVRAMのグラフィックボードでも高解像度の画像生成が可能で、かつ推論処理を高速に実行できます。

以下の画像はNVIDIA Quadro P4000というVRAM8GBのグラフィックボードを使用してMultiDiffusionで生成しました。解像度は1152×1152です。

Stable Diffusionで使用するグラフィックボードのVRAMは最低でも12GB程度以上推奨と言われていますが、MultiDiffusionではVRAM8GBでもこのように充分なサイズの画像を生成することができます。

VRAM8GBでも1024×1024以上のサイズで生成が可能。

MultiDiffusionのインストール

AUTOMATIC1111のWebUIにMultiDiffusionをインストールする手順を解説します。

AUTOMATIC1111のWebUIを起動したら、Extensionsタブをクリックします。

Install from URLタブをクリックします。

URL for extension's git repositoryに以下のURLを入力してください。

https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111

URLを入力したらInstallをクリックします。

以下のようにメッセージが表示されたらインストールが完了です。

Stable Diffusion AI画像生成ガイドブック

著:今村勇輔, 著:比嘉康雄, 著:五十嵐良平

口コミを見る

Amazon

＼楽天ポイント4倍セール！／

楽天市場

＼ポイント5%還元！／

Yahooショッピング

メルカリ

ポチップ

物体検出とGAN、オートエンコーダー、画像処理入門 PyTorch/TensorFlow2による発展的・実装ディープラーニング

著:チーム・カルポ

口コミを見る

Amazon

＼楽天ポイント4倍セール！／

楽天市場

＼ポイント5%還元！／

Yahooショッピング

メルカリ

ポチップ

MultiDiffusionを使ってアップスケール（高画質）する

MultiDiffusionをインストール後、WebUIを再起動すると以下のようにTiled DiffusionとTiled VAEの項目が追加されています。

今回はimg2imgでのアップスケールを試しますので、まずはtxt2imgで画像を生成します。

プロンプトの作成が難しいと思われている方には、AIでプロンプトを自動生成するのがおすすめです。「StableDiffusionのプロンプト（呪文）を自然言語処理モデルGPT-3（Catchy）で自動生成する方法」で詳細を解説しています。

プロンプトとパラメータを入力したら、Generateをクリックして画像を生成します。

画像生成が完了したら、気に入った画像を選択し、Send to img2imgをクリックします。

img2imgの画面に先ほどの画像が転送されたら、画面を下にスクロールします。

まずは通常通りSampling methodを選択します。今回はimg2imgの元画像と同様にDPM++ 2M Karrasを選択します。

続いてSampling stepsを設定します。今回は30に設定しました。

Tiled Diffusionの項目をクリックします。

以下のようにMultiDiffusionの設定項目が展開されます。

Enable Tiled DiffusionとKeep input image sizeにチェックを入れます。

MethodはデフォルトのMultiDiffusionのままに設定します。

Upscalerは今回はR-ESRGAN 4x+ Anime6Bを選択しました。フォトリアル系ではR-ESRGAN 4x+など必要に応じて変更してください。

Scale Factorは元の入力画像に対して、何倍に拡張するかを設定する項目になります。今回は元画像が512*512のサイズであるため、2に設定しました。
出力画像は2倍の1024*1024となります。

それ以外の項目は今回はデフォルト値のままとしました。
設定が完了したら、Generateをクリックして画像を生成します。

以下のようにMultiDiffusionによってアップスケールされた画像が生成されました。

あわせて読みたい

img2imgで画像生成時のMultiDiffusionアップスケール実行結果

j実際にMultiDiffusionを使ったアップスケール前後の画像を比較してみます。

アップスケール前の画像

アップスケール前の画像は512*512のサイズの画像です。

プロンプト

(best quality)+,(masterpiece)++,(ultra detailed)++, ((Add layer)),A girl in school uniform is standing, on her way home at dusk, alley, evening, dusk

ネガティブプロンプト

 (worst quality:1.4), (low quality:1.4), (monochrome:1.3), (3D:0.9), lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name, bad_prompt, bad_prompt2

モデル

今回、画像生成に使用したモデルはBreakDomain_m2000です。
モデルの入手先は以下のページで解説しています。

あわせて読みたい

StableDiffusionのアニメ調モデルを紹介今回はStable Diffusionで使えるおすすめの学習済みモデルを紹介します。Stable Diffusionでは、同じプロンプトを入力しても、モデルを入れ替えることで出力されるイラ…

生成された画像

MultiDiffusionでアップスケール後の画像

こちらがMultiDiffusionでアップスケールした画像です。
画像サイズが大きくなっただけでなく、書き込み量も増えて高精細な画像になりました。

あわせて読みたい

Stable Diffusionのテクニックを効率よく学ぶには？

カピパラのエンジニア

Stable Diffusionを使ってみたいけど、ネットで調べた情報を試してもうまくいかない…

猫のエンジニア

そんな時は、操作方法の説明が動画で見られるUdemyがおすすめだよ！

動画学習プラットフォームUdemyでは、画像生成AIで高品質なイラストを生成する方法や、AIの内部で使われているアルゴリズムについて学べる講座が用意されています。

Udemyは講座単体で購入できるため安価で（セール時1500円くらいから購入できます）、PCが無くてもスマホでいつでもどこでも手軽に学習できます。

Stable Diffusionに特化して学ぶ

Stable Diffusionに特化し、クラウドコンピューティングサービスPaperspaceでの環境構築方法から、モデルのマージ方法、ControlNetを使った構図のコントロールなど、中級者以上のレベルを目指したい方に最適な講座です。

ジェネレーティブAI（画像生成AI）入門【Stable Diffusion】-プロンプトでハイクオリティな画像制作が可能

画像生成AIの仕組みを学ぶ

画像生成AIの仕組みについて学びたい方には、以下の講座がおすすめです。
画像生成AIで使用される変分オートエンコーダやGANのアーキテクチャを理解することで、よりクオリティの高いイラストを生成することができます。

AIによる画像生成を学ぼう！【VAE / GAN】 -Google ColabとPyTorchで基礎から学ぶ生成モデル-

まとめ

今回はStable DiffusionのWebUI、AUTOMATIC1111の拡張機能として使えるMultiDiffusionを紹介しました。

AUTOMATIC1111では、今回紹介したMultiDiffusion以外にもアップスケールする拡張機能が用意されています。

あわせて読みたい

Stable Diffusionで生成した画像をhires.fixでアップスケール（高画質化）する方法今回はStable Diffusionで生成した画像を高精細化するAUTOMATIC1111の機能、hires.fixについて使い方を解説します。最初から大サイズで出力するよりも、小さいサイズで…

あわせて読みたい

LLuL – Local Latent upscaLerで画像の一部だけにディティールを追加する方法｜ AUTOMATIC1111拡… 今回はLLuL – Local Latent upscaLerを使って部分的にディティールを追加する方法について解説します。Stable Diffusionで画像を生成した際に、「背景や服装など一部だ…

用途に応じた拡張機能を選択してみてください。

また、以下の記事で効率的にPythonのプログラミングスキルを学べるプログラミングスクールの選び方について解説しています。最近ではほとんどのスクールがオンラインで授業を受けられるようになり、仕事をしながらでも自宅で自分のペースで学習できるようになりました。

スキルアップや副業にぜひ活用してみてください。

あわせて読みたい

Pythonが学べるプログラミングスクール5選｜初心者にもおすすめプログラミングスクールってたくさんあって、どのスクールを選んだらいいのかな？自分のキャリアアップに必要なカリキュラムがあるプログラミングスクールを探したいん…

スクールではなく、自分でPythonを習得したい方には、いつでもどこでも学べる動画学習プラットフォームのUdemyがおすすめです。

講座単位で購入できるため、スクールに比べ非常に安価（セール時1200円程度～）に学ぶことができます。私も受講しているおすすめの講座を以下の記事でまとめていますので、ぜひ参考にしてみてください。

あわせて読みたい