Stable Diffusion 呪文探しの旅 《GPT-3で生み出す呪文が描く世界》 Part 3

  • URLをコピーしました!

画像を生成できるAI、StableDiffusionに絵を描かせるための指示(Prompot)は呪文と呼ばれ、どのような呪文を指示するかによって出力されるイラストが大きく変わります。

そんな呪文を構築するノウハウがなくても、Open AIの自然言語処理モデルGPT-3を使った文章生成サービスCatchyを使って様々なパターンの呪文を大量に自動生成することが可能です。

今回はGPT-3が生み出した呪文は美しいイラストを描くことができるのかを検証すると共に、美しいイラスト生成できた呪文をまとめました。

また、当ブログでStable Diffusionについて解説した記事を以下のページでまとめていますので、あわせてご覧ください。

目次

Stable Diffusionとは

Stable Diffusion(ステーブル・ディフュージョン)は2022年8月に無償公開された描画AIです。ユーザーがテキストでキーワードを指定することで、それに応じた画像が自動生成される仕組みとなっています。
NVIDIAのGPUを搭載していれば、ユーザ自身でStable Diffusionをインストールし、ローカル環境で実行することも可能です。
(出典:wikipedia)

Stable Diffusion 2.0の使い方については以下のページで解説していますので、セットアップをあらかじめ済ませておいてください。

Stable Diffusionの学習済みモデル Anything V4.0

Stable Diffusionは使用するモデルによって、出力されるイラストが大きく変わります。今回は2次元のアニメ調専用にチューニングされた学習済みモデル、Anything V4を使用します。Anythin V4の使い方は以下の記事で詳細を解説しています。

GPT-3を使ったPrompt(呪文)生成ツールCatchy

今回使用するPrompt(呪文)は全て、GPT-3を使った文章生成サービスCatchyの「画像生成AI用の英文」生成ツールを使用して生成したPromptを、改変無しでそのまま利用しています。

Catchyの使い方の詳細は以下の記事で解説していますので、あわせてご覧ください。

画像生成AI用の英文生成ツール

指定するネガティブプロンプト(Negative Prompt)

今回は全てのイラスト生成時において、ネガティブプロンプトを指定しています。ネガティブプロンプトとは、生成されるイラスト内から除外したい要素を指示するための文字列です。

ネガティブプロンプトについての解説と実際に使用するためのPythonコードの記述方法は、以下のページで解説していますので、あわせてご覧ください。

また、今回使用するネガティブプロンプトは、Twitterででょさんが公開されているものを使わせて頂きました。

ネガティブプロンプトはこちらです。

 (worst quality:1.4), (low quality:1.4) , (monochrome:1.1),(bad hands:1.2),more than people

今回紹介する全てのイラストで、こちらの同じネガティブプロンプトを使用して生成しています。

Catchyで生成したPrompt(呪文)紹介

ここからは実際にGPT-3を使った文章生成ツールCatchyを使って生成したPrompt(呪文)を紹介していきます。Promptと元となるCatchyへの入力文もあわせて紹介しますので、参考にしてみてください。

Prompt(呪文) その1

Catchyへの入力文

Catchyのプロンプト生成ツールへの入力文は以下となります。

剣と魔法のファンタジー世界。高原に立っている魔法使いの女性。

生成されたPrompt(呪文)

Catchyで生成されたPromptは以下となります。

A wizard woman with long, flowing purple robes stands on a plateau in a fantasy world of swords and magic. She has white hair, a pointed hat and holds a staff in one hand. The plateau overlooks a large, lush forest with towering trees in shades of green and brown, and a winding river below. The sky is a brilliant blue, peppered with white clouds, and a rainbow arches across the sky. In the distance, a castle can be seen perched atop a hill. Art style: Animation.

生成されたイラスト

こちらがStable Diffusionで生成されたイラストです。

生成されたPrompt(呪文)

Catchyへの入力文は同じで、もう1パターンPromptを生成してみました。

 A wizard woman is standing atop a high plateau. She is wearing a long blue robe with a pointed hat, and she is holding a tall staff in her right hand. Behind her is a magnificent landscape with snow-capped mountains, deep forests, and a winding river. In the sky, an orange sun is setting, while a full moon rises in the east. In the foreground are swords and shields, signifying a world of swords and magic. Art style: Animation.

生成されたイラスト

こちらがStable Diffusionで生成されたイラストです。

画像生成AI用の英文生成ツール

Prompt(呪文) その2

Catchyへの入力文

Catchyのプロンプト生成ツールへの入力文は以下となります。

崩壊した古代の遺跡に佇む一人の少女。

生成されたPrompt(呪文)

Catchyで生成されたPromptは以下となります。

 A girl with dark brown hair is standing in a collapsed ancient ruin. The ruin is made of old stones, some of which are covered in moss. The girl is wearing a light blue dress and looking around in awe. The background is a lush green forest and the sky is clear. The sun is shining and there is a river nearby. There is a rainbow in the sky, and birds are flying around. Art style: animation.

生成されたイラスト

こちらがStable Diffusionで生成されたイラストです。

画像生成AI用の英文生成ツール

Prompt(呪文) その3

Catchyへの入力文

Catchyのプロンプト生成ツールへの入力文は以下となります。

夜の工業地帯にそびえる巨大な工場。

生成されたPrompt(呪文)

Catchyで生成されたPromptは以下となります。

 A huge factory is towering over an industrial area at night. The factory is lit up with yellow and orange lights and smoke is billowing out of the tall chimneys. The sky is dark and full of stars. The industrial area is filled with warehouses, cranes, and containers. The buildings are grey and the roads are illuminated by streetlights. In the background, a train is passing by, its lights flashing in the night. Art style: animation.

生成されたイラスト

こちらがStable Diffusionで生成されたイラストです。

画像生成AI用の英文生成ツール

Prompt(呪文) その4

Catchyへの入力文

Catchyのプロンプト生成ツールへの入力文は以下となります。

太古の遺跡に立っている巨大な太古のロボット兵器と一人の少女。

生成されたPrompt(呪文)

Catchyで生成されたPromptは以下となります。

 A huge robotic weapon is standing in the background of a prehistoric ruin. The robot is metallic gray and has a cannon arm. The girl is standing in the foreground and is wearing a blue dress. The background is a desert with mountains and a bright blue sky. The ruins are made of stone blocks and are crumbling. The sun is setting and the sky is painted in shades of orange and yellow. Art style: animation.

生成されたイラスト

こちらがStable Diffusionで生成されたイラストです。

画像生成AI用の英文生成ツール

Prompt(呪文) その5

Catchyへの入力文

Catchyのプロンプト生成ツールへの入力文は以下となります。

暗黒世界の城。鎧を纏った暗黒騎士。

生成されたPrompt(呪文)

Catchyで生成されたPromptは以下となります。

 A castle in the underworld looms in the distance. The castle is made of a dark grey stone and has four towers. The walls of the castle are surrounded by a moat of black water. In the foreground is a knight in dark armor. The knight is wearing a black helmet, a breastplate with silver accents, and a cloak of midnight blue. The background is a vast, star-filled night sky. The stars twinkle in a range of colors from white to yellow to blue. Art style: Animation.

生成されたイラスト

こちらがStable Diffusionで生成されたイラストです。

画像生成AI用の英文生成ツール

Prompt(呪文) その6

Catchyへの入力文

Catchyのプロンプト生成ツールへの入力文は以下となります。

妖精が住む深い森に佇む一人の魔女

生成されたPrompt(呪文)

Catchyで生成されたPromptは以下となります。

 A witch with long black hair is standing in a deep forest. The forest is filled with tall trees and a variety of plants and flowers. Fairies with colorful wings and glittering dust can be seen fluttering around. The sky is a deep blue and the sun is setting over the horizon. The witch is wearing a dark purple dress and is holding a magical wand in her hand. Art style: Animation.

生成されたイラスト

こちらがStable Diffusionで生成されたイラストです。

画像生成AI用の英文生成ツール

Stable Diffusionのローカル環境

Stable Diffusionを使用する際にGoogle ColaboratoryやWebサービスを利用されている方も多いかと思います。しかし、最近Google Colabの無料での使用範囲が大きく制限されたり、Webサービスでは月額費用がかかったりします。

欲しいイラストを生成するにはかなりの回数をトライする必要があるため、これらの制約に縛られることなく使用できるローカル環境を構築するのがおすすめです。

ローカルのPCに搭載するグラフィックボード

ローカルマシンで実行する上で重要になってくるのがグラフィックボードです。
Stable Diffusionでイラストを生成するために実行される推論処理を、グラフィックボード上のGPUを使って大幅に高速化することができます。
トライする回数が増えれば品質の高いイラストが生成される可能性が上がりますので、グラフィックボードは重要です。

Stable Diffusionで使用するためのGPUは2022年に新たにNVIDIAから発売されたRTX4000シリーズのGPUとVRAM12GB以上のものがおすすめです。最近は半導体不足も一服したこともあり、新しい製品ながら価格が下がりつつあります。

エントリーモデルのGPU

予算を安く抑えたい方向けにはRTX4070を搭載したグラフィックボードがおすすめです。

予算に余裕がある方向け ミドル~ハイエンド

予算に余裕がある方向けにおすすめのRTX 4080、ビデオメモリ16GB以上搭載のモデルです。

大サイズの画像を高速に生成したい方向けのハイエンドGPU、RTX 4090 ビデオメモリ24GB搭載モデルです。

予算とパフォーマンスに合わせて選んでみてください。

画像生成AIについて学ぶ

動画学習プラットフォームUdemyでは、画像生成AIで高品質なイラストを生成する方法や、AIの内部で使われているアルゴリズムについて学べる講座が用意されています。
Udemyは講座単体で購入できるため安価で(セール時1500円くらいから購入できます)、PCが無くてもスマホでいつでもどこでも手軽に学習できます。

画像生成AIの使い方を学ぶ

Stable DiffusionやMidjourneyの使い方や活用方法を勉強したい方には、以下の講座がおすすめです。

icon icon 【文字からイラスト画像を生成】素人でもプロ並みの絵を作れる画像生成AIツール講座【ChatGPTも活用】 icon

画像生成AIの仕組みを学ぶ

画像生成AIの仕組みについて学びたい方には、以下の講座がおすすめです。
画像生成AIで使用される変分オートエンコーダやGANのアーキテクチャを理解することで、よりクオリティの高いイラストを生成することができます。

icon icon AIによる画像生成を学ぼう!【VAE / GAN】 -Google ColabとPyTorchで基礎から学ぶ生成モデル- icon

UdemyのStable Diffusionなど、AIアート関連の講座は海外のものも多いですが、ブラウザのリアルタイム翻訳機能を使うことで日本語字幕付きで視聴できます。

Udemyの海外講座の字幕を日本語化する方法

まとめ

公開はGPT-3を使った文章生成サービスCatchyの「画像生成AI用の英文」生成ツールを使って生成したPrompt(呪文)を使用介してみました。

短い日本語文を入力すると2、3秒でPromptの英文を生成してくれるので、英語のPromptを考える時間を大幅に削減できます。また、そのPromptを使って非常に奇麗なイラストを生成できることもわかりました。
Catchyは毎月10クレジット分は無料で使用できますので、ぜひ「画像生成AI用の英文」生成ツールを活用してみてください。

それでは、また次の記事でお会いしましょう。

画像生成AI用の英文生成ツール
よかったらシェアしてね!
  • URLをコピーしました!
目次