LoRAで追加学習 ｜ sd-scriptでLoRAファイルを作成する方法

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

ポチップ

LoRA（Low-Rank Adaptation）の学習環境を用意する

LoRAで学習を行うためにKohya S.さんが公開されているsd-scriptsというツールを使用します。

sd-scriptsのインストール方法を以下の記事で解説していますので、事前に済ませておいてください。

あわせて読みたい

sd-scriptsのインストール方法を解説｜ LoRA学習環境をPaperspace、Google Colaboratoryで構築今回はLoRAの学習環境であるsd-scriptsのセットアップ方法について解説します。LoRAで自分好みのキャラクターを追加させ、LoRAファイルを作成することでキャラクターを…

あわせて読みたい

LoRA（Low-Rank Adaptation）の学習方式

sd-scriptで使用できるLoRAの学習方式には以下の3つがあります。

LoRAの学習方式

Dreambooth class+identifier
Dreambooth キャプション
fine tuning

Dreambooth class+identifierでは学習内容を細かく指定するのが難しく、fine tuningは学習コストが高いため、今回はDreambooth キャプションを使って学習を行います。

尚、今回紹介する学習手順はテルルとロビン【てるろび】旧やすらぼさんがYouTubeで公開されている「日本一わかりやすいLoRA学習！sd-scripts導入から学習実行まで解説！東北ずん子LoRAを作ってみよう！【Stable Diffusion】」を参考にさせて頂きました。

LoRA学習で使用するディレクトリ構造

学習に使用する作業フォルダとしてTrainingDataを作成し、その中に必要なデータを配置します。

/notebooks/　（ルートディレクトリ）
└── TrainingData
    ├── reference_image  (素材画像)
    ├── regularized_image  (正則化画像)
    ├── outputs  (出力ファイル)
    └── datasetconfig.toml

/notebooks/がルートフォルダで、その下にTrainingDataフォルダがあります。そしてTrainingDataの下には役割が明示されたreference_image, regularized_image, outputsという3つのサブフォルダと、datasetconfig.tomlというファイルがあります。

datasetconfig.tomlは最後に作成しますので、まずはフォルダ構造だけを以下のように作成してください。

ルートディレクトリはPaperspace場合ですので、他の環境の場合は任意のディレクトリに置き換えてください。

LoRAで学習を行う手順

LoRAで追加学習を行うまでの作業の流れは以下の通りです。

STEP

学習用の素材を用意する

LoRAで学習させる画像のデータセットを用意します。学習させたい要素が含まれる画像を、最低20枚程度用意します。

STEP

キャプションファイルを作成する

用意したデータセットの個々の画像に対して、学習させたくない内容を定義するキャプションファイルを作成します。
stable-diffusion-webui-wd14-taggerというツールを使って、データセットの画像を表現するプロンプトを自動生成し、そこから学習させたいプロンプトを削除します。

STEP

設定ファイル「datasetconfig.toml」を作成する

設定ファイル「datasetconfig.toml」を作成し、データセットが格納されているディレクトリや、学習の繰り返し回数を定義します。

STEP

Accelerateコマンドのパラメータを作成する

Accelerateは、PyTorchやTensorFlowの分散トレーニングを容易にするライブラリです。Accelerateを使用してLoRAの追加学習を実行するために必要なパラメータを定義します。

STEP

LoRA学習を実行する

STEP4で作成したAccelerateを元に、追加学習を実行します。

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥218,800 （2025/11/08 08:27時点 | Amazon調べ）

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

ポチップ

①学習用の画像素材を用意する

今回、学習に使用するデータはsd-scripts製作者のKohya S.さんが公開されているカエルの画像をお借りしました。

note（ノート）

LoRA学習用サンプルデータ｜Kohya S. LoRAの環境整備がうまく行っているか、学習を試すためのサンプルデータです。サンプルデータ作業ディレクトリを作成し、以下のzipを展開してください。 lora_train_sampl…

サンプルデータの中からランダムに6枚ほど選んで使用します。
画像をreference_imageのディレクトリに配置します。

LoRAの練習におすすめのデータセット

今回は手順を覚えて頂くために、少ない画像を手作業で用意しますが、手順を覚えて後にもう少し実践的なデータで練習したいという方向けに、無料で使用できる最適なデータセットを以下の記事で解説しています。

あわせて読みたい

LoRAの追加学習に最適なデータセットとパラメータの設定方法｜東北ずん子で追加学習LoRAを試す今回はStable DiffusionでLoRAの追加学習を行う際に使用できるデータセットと、パラメータ設定による学習結果の違いについて解説します。LoRAで追加学習を行うためには…

②キャプションファイルを作成する

続いて学習内容を指定するためのキャプションファイルを作成思案す。

stable-diffusion-webui-wd14-taggerのインストール

キャプションファイルの作成には、AUTOMATIC1111 Web UIの拡張機能として使用できるstable-diffusion-webui-wd14-taggerというツールを使用します。

GitHub

GitHub – kawalain/stable-diffusion-webui-wd14-tagger: Labeling extension for Automatic1111’s Web UI Labeling extension for Automatic1111’s Web UI. Contribute to kawalain/stable-diffusion-webui-wd14-tagger development by creating an account on GitHub.

stable-diffusion-webui-wd14-taggerは、読み込んだ画像ファイルを解析し、その画像を表現するプロンプトをテキストファイルとして生成するツールです。

インストール手順

Web UIを起動したらExtensions→Install from URLと進み、以下のURLを入力してください。

https://github.com/toriato/stable-diffusion-webui-wd14-tagger

URLを入力したら、Installをクリックしてtaggerをインストールします。

インストールが完了したらWeb UIを再起動します。

taggerでのキャプション生成手順

Web UIが再起動したら、Taggerのタブが追加されていますのでクリックします。

Batch from directoryのタブをクリックします。

Input directoryとOutput directoryに学習用画像が配置されているディレクトリのパスを入力します。

Additional tags(split by comma)にトリガーワードに使用したい文字列を設定します。今回はカエルの画像を学習させるためkero_chanとしました。

最後にInterrogateをクリックします。

以下のようにメッセージが表示されたら、キャプションの生成が完了しました。

先ほど指定したディレクトリを確認すると、学習用の画像ファイルと同じ名前のテキストファイルが生成されていることが確認できました。

あわせて読みたい

キャプションファイルを修正する

生成されたタグ

今回は例として01.txtのファイルを確認してみます。以下のような内容となっています。

先頭には先ほど設定したトリガーワードが定義されています。

kero chan, no humans, white background, simple background, solo, open mouth, full body, dinosaur, from side, claws

このファイルは先ほど読み込んだ01.pngのカエルの画像を表現する文字列が並んでいます。

キャプションファイルは過学習を防止するための情報を保持するファイルであるため、学習させたくない内容を定義しておくものになります。

逆に、学習させたい内容を表す文字列はキャプションファイルから削除する必要があります。

学習させたい内容はキャプションファイルから削除する。

[素材]-[キャプション]=[学習データ]

修正後のタグ

01.txtの内容を以下のように、トリガーワードと学習させたくない内容だけに編集しました。

kero chan, white background, simple background, dinosaur

同様の作業を他の全てのキャプションファイルにも実施します。

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥218,800 （2025/11/08 08:27時点 | Amazon調べ）

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

ポチップ

③`datasetconfig.toml`を作成する

続いて学習に必要な設定ファイルdatasetconfig.tomlを作成します。

テンプレートを作成する

まず以下のテンプレートをメモ帳などにコピーしてください。

[general]
[[datasets]]
[[datasets.subsets]]
image_dir = '\notebooks\TrainingData\reference_image'
caption_extension = '.txt'
num_repeats = 1

パラメータを変更する

image_dirの行に学習に使用する画像ファイルが格納されているディレクトリを指定します。

image_dir = '\notebooks\TrainingData\reference_image'

num_repeats繰り返し学習する回数を指定します。

num_repeats = 1

ファイル名と拡張子を変更する

最後にファイルをdatasetconfig.tomlという名前で保存します。
その際、エンコードを必ずUTF-8に設定して保存してください。

④Accelerateのコマンドを作成する

今回使用するAccelerateは、PyTorchやTensorFlowの分散トレーニングを容易にするライブラリです。
このAccelerateを実行するためのコマンドに渡すパラメータを設定することにより、LoRAで学習する内容に対する指示を行います。

LoRAの学習はMeta社が開発したPyTorchというライブラリによって実行されます。

PyTorchは、Pythonで記述されたオープンソースの機械学習ライブラリで、旧Facebookの人工知能研究グループにより開発されています。

accelerate launchコマンドの詳細は以下のページを参考にしてください。

あわせて読みたい

The Command Line We’re on a journey to advance and democratize artificial intelligence through open source and open science.

コマンドテンプレート

まず、以下のaccelerate launchコマンドのテンプレートをメモ帳などにコピーしてください。

accelerate launch --num_cpu_threads_per_process 1 train_network.py
 --pretrained_model_name_or_path=X:\YOUR_FAVORITE_MODEL_PATH.safetensors
 --output_dir=D:\TrainingData\outputs
 --output_name=FILE_NAME_HERE
 --dataset_config=D:\TrainingData\datasetconfig.toml
 --train_batch_size=1
 --max_train_epochs=10
 --resolution=512,512
 --optimizer_type=AdamW8bit
 --learning_rate=1e-4
 --network_dim=128
 --network_alpha=64
 --enable_bucket
 --bucket_no_upscale
 --lr_scheduler=cosine_with_restarts
 --lr_scheduler_num_cycles=4
 --lr_warmup_steps=500
 --keep_tokens=1
 --shuffle_caption
 --caption_dropout_rate=0.05
 --save_model_as=safetensors
 --clip_skip=2
 --seed=42
 --color_aug
 --xformers
 --mixed_precision=fp16
 --network_module=networks.lora
 --persistent_data_loader_workers

そして必要な個所のパラメータを変更します。
今回は手順を覚えて頂くという目的であるため、最低限の項目のみ解説します。

コマンド解説

学習に使用するモデルを指定します。実際にLoRAを使って画像生成を行う際に使用するモデルを設定してください。

ここはLoRAファイルを指定するのではなく、SDで画像生成する際に使用したいモデル（ベースとなるモデル）を指定します。
例えばリアル系であればChilloutMix、アニメ系であればSukiyakiMixV1などです。

LoRAは既存のStable Diffusionのモデルに対して局所的に追加学習を行うという形になるため、使いたいモデルごとにLoRAファイルを用意する必要になります。

 --pretrained_model_name_or_path=X:\YOUR_FAVORITE_MODEL_PATH.safetensors

作成したLoRAファイルを出力するディレクトリのパスを指定します。

 --output_dir=D:\TrainingData\outputs

先ほど作成したdatasetconfig.tomlファイルが配置されているパスを指定します。

 --dataset_config=D:\TrainingData\datasetconfig.toml

train_batch_sizeは使用できるメモリに余裕がある場合は、高い数値を設定すると学習の速度が向上します。

 --train_batch_size=1

今回、紹介した以外の項目は、必要に応じて変更してください。

あわせて読みたい

実際に使用するコマンドを作成する

先ほどのコマンドのテンプレートを実際に使用できる形に整形します。

コマンドの整形

全ての改行を削除する
コマンド間は半角一文字分のスペースを入れる

整形後のコマンド例

整形後のコマンド例です。
整形後は以下のように全てのコマンドが1行に集約されます。

今回はPaperspaceで実行する場合の例として作成しました。パスなどは各環境に合わせて変更してください。

accelerate launch --num_cpu_threads_per_process 1 train_network.py --pretrained_model_name_or_path=/notebooks/stable-diffusion-webui/models/Stable-diffusion/breakdomain_M2000.safetensors --output_dir=/notebooks/TrainingData/outputs --output_name=FILE_NAME_HERE --dataset_config=/notebooks/TrainingData/datasetconfig.toml --train_batch_size=1 --max_train_epochs=10 --resolution=512,512 --optimizer_type=AdamW8bit --learning_rate=1e-4 --network_dim=128 --network_alpha=64 --enable_bucket --bucket_no_upscale --lr_scheduler=cosine_with_restarts --lr_scheduler_num_cycles=4 --lr_warmup_steps=500 --keep_tokens=1 --shuffle_caption --caption_dropout_rate=0.05 --save_model_as=safetensors --clip_skip=2 --seed=42 --color_aug --xformers --mixed_precision=fp16 --network_module=networks.lora --persistent_data_loader_workers

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥218,800 （2025/11/08 08:27時点 | Amazon調べ）