LoRAの追加学習に最適なデータセットとパラメータの設定方法 ｜ 東北ずん子で追加学習LoRAを試す

＼ポイント最大11倍！／

ポチップ

LoRAで追加学習を行うツール sd-scripts

LoRAで追加学習を行うためにはsd-scriptsというツールが必要となります。
ツールの導入方法について、以下の記事で解説しています。

あわせて読みたい

sd-scriptsのインストール方法を解説｜ LoRA学習環境をPaperspace、Google Colaboratoryで構築今回はLoRAの学習環境であるsd-scriptsのセットアップ方法について解説します。LoRAで自分好みのキャラクターを追加させ、LoRAファイルを作成することでキャラクターを…

sd-scriptsを使って追加学習を行う手順

追加学習を行い、LoRAファイルを作成する手順を、以下の記事で解説しています。

あわせて読みたい

LoRAで追加学習｜ sd-scriptでLoRAファイルを作成する方法 LoRAの追加学習やってみたいけど難しそう… 手順は多いけど１つずつ説明通りにこなしていけば簡単だよ。今回は画像生成AIであるStable Diffusionで、LoRAによる学習を実…

Stable Diffusion AI画像生成ガイドブック

著:今村勇輔, 著:比嘉康雄, 著:五十嵐良平

¥2,200 （2025/07/04 00:55時点 | Amazon調べ）

＼ポイント最大11倍！／

物体検出とGAN、オートエンコーダー、画像処理入門 PyTorch/TensorFlow2による発展的・実装ディープラーニング

ポチップ

著:チーム・カルポ

¥2,851 （2025/07/07 05:12時点 | Amazon調べ）

＼ポイント最大11倍！／

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

ポチップ

東北ずん子とは

東北ずん子は、東北企業が無償で商用利用できるキャラクターです。

声優の佐藤聡美さんが声を担当しており、17歳の高校生という設定です。趣味はずんだ餅作りやずんだ餡を利用した創作料理作りで、そのキャラクター性が反映されています。

このキャラクターは、東北企業であれば無料で商用利用が可能で、クリエイターは非商用であれば無料で利用できます。そのため、東北地方の自治体や公共団体でも、イベントやふるさと納税、広報などの目的で利用されています。

また、東北ずん子関連の公式グッズは、公式ウェブサイトのショップで取り扱われています。3Dモデルや音声素材なども提供されており、これらも商用利用が可能です。

公式サイトは以下となります。

あわせて読みたい

東北ずん子・ずんだもんPJ 公式HP 東北ずん子・ずんだもんは東北企業であればイラストを無償で商用利用出来るキャラクターです。

あわせて読みたい

東北ずん子のデータセットを入手する方法

先ほど紹介した東北ずん子の公式サイトにアクセスします。

以下のトップページが表示されますので、下方向にスクロールします。

東北ずん子のプロフィールが表示されたら、東北ずん子の画像素材をクリックします。

素材ページが開いたら、下方向にスクロールします。画像学習用のデータをダウンロードをクリックします。

Google Driveが開きますので、01_LoRA学習用データA氏提供版背景白を右クリックします。

メニューのダウンロードをクリックします。

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥110,930 （2025/07/02 16:07時点 | Amazon調べ）

＼ポイント最大11倍！／

NVIDIA Quadro P5000 – Graphics card – Quadro P5000 – 16 GB GDDR5 – PCIe 3.0 x16 – DVI, 4 x DisplayPort

ポチップ

東北ずん子のデータセット

先ほどダウンロードしたファイルを解凍すると以下のようなファイルが展開されます。

以下のように61枚の画像ファイルに連番で名前が付けられており、そのままLoRAで学習することができる状態になっています。

また、画像とセットでLoRAの学習時に必要となるキャプションファイルまで用意されています。

例として1枚目の画像と対になるキャプションファイルzko (1).txtを開いてみます。

先頭にはトリガーワードになるzunkoが定義されています。

キャプションファイルには髪とひと瞳の色などの情報がが含まれていないため、それらの特徴がトリガーワードのzunkoに関連付けられていることがわかります。

あわせて読みたい

LoRAで追加学習を行う手順

LoRAで追加学習を行う手順は以下の記事で解説していますので、参考にしてください。
ディレクトリ構造もこちらの記事の内容をもとに説明します。

Murasan Lab

LoRAで追加学習｜ sd-scriptでLoRAファイルを作成する方法 | Murasan Lab LoRAの追加学習やってみたいけど難しそう… 手順は多いけど１つずつ説明通りにこなしていけば簡単だよ。今回は画像生成AIであるStable Diffusionで、LoRAによる学習を実行…

先ほどダウンロードした東北ずん子のファイルをそのまま学習用画像を格納するreference_imageのフォルダにコピーします。

/notebooks/　（ルートディレクトリ）
└── TrainingData
    ├── reference_image  (素材画像)
    ├── regularized_image  (正則化画像)
    ├── outputs  (出力ファイル)
    └── datasetconfig.toml

今回は以下のようにPaperspaceのディレクトリにアップロードしました。ファイルを一切加工することなく即LoRAの学習に使用できます。

LoRA追加学習に使用した環境

LoRAの追加学習では膨大な量の計算を行う必要があるため、高速なGPUが必要となります。

今回はNVIDIAのNVIDIA Quadro P5000というグラフィックアクセラレータを使用して、学習時間を計測します。ブーストクロック時8.86 TFLOPSの性能を出す高性能GPUです。

Quadro P5000のスペック

項目	値
GPU名	GP104
アーキテクチャ	Pascal
製造プロセス	16 nm
ベースクロック	1607 MHz
ブーストクロック	1733 MHz
浮動小数点演算性能	8.86 TFLOPS（= 2560コア * 2FLOP/コア * 1733MHz）
メモリサイズ	16 GB
メモリタイプ	GDDR5X
メモリクロック	1251 MHz (10 Gbps effective)
バンド幅	320 GB/s
バス幅	256 bit

あわせて読みたい

LoRA追加学習に関するパラメータの設定　繰り返し：2、エポック数：3

パラメータの設定

datasetconfig.tomlの設定

datasetconfig.tomlで定義している繰り返し回数num_repeatsを2に変更します。

[general]
[[datasets]]
[[datasets.subsets]]
image_dir = '/notebooks/TrainingData/reference_image'
caption_extension = '.txt'
num_repeats = 2

accelerate launchコマンド

accelerate launchコマンドのパラメータとして設定するエポック数max_train_epochsを3に変更します。

accelerate launch --num_cpu_threads_per_process 1 train_network.py --pretrained_model_name_or_path=/notebooks/stable-diffusion-webui/models/Stable-diffusion/breakdomain_M2000.safetensors --output_dir=/notebooks/TrainingData/outputs --output_name=zunko_breakdomain_M2000_repeats2_epochs3 --dataset_config=/notebooks/TrainingData/datasetconfig.toml --train_batch_size=1 --max_train_epochs=3 --resolution=512,512 --optimizer_type=AdamW8bit --learning_rate=1e-4 --network_dim=128 --network_alpha=64 --enable_bucket --bucket_no_upscale --lr_scheduler=cosine_with_restarts --lr_scheduler_num_cycles=4 --lr_warmup_steps=500 --keep_tokens=1 --shuffle_caption --caption_dropout_rate=0.05 --save_model_as=safetensors --clip_skip=2 --seed=42 --color_aug --xformers --mixed_precision=fp16 --network_module=networks.lora --persistent_data_loader_workers

LoRA追加学習の実行結果

学習結果が以下となります。

/usr/local/lib/python3.10/dist-packages/bitsandbytes/cuda_setup/paths.py:27: UserWarning: WARNING: The following directories listed in your path were found to be non-existent: {PosixPath('/usr/local/lib/python3.10/dist-packages/cv2/../../lib64')}
  warn(
CUDA SETUP: CUDA runtime path found: /usr/local/cuda-11.6/lib64/libcudart.so
CUDA SETUP: Highest compute capability among GPUs detected: 6.1
CUDA SETUP: Detected CUDA version 116
CUDA SETUP: Loading binary /usr/local/lib/python3.10/dist-packages/bitsandbytes/libbitsandbytes_cuda116_nocublaslt.so...
use 8-bit AdamW optimizer | {}
override steps. steps for 3 epochs is / 指定エポックまでのステップ数: 366
running training / 学習開始
  num train images * repeats / 学習画像の数×繰り返し回数: 122
  num reg images / 正則化画像の数: 0
  num batches per epoch / 1epochのバッチ数: 122
  num epochs / epoch数: 3
  batch size per device / バッチサイズ: 1
  gradient accumulation steps / 勾配を合計するステップ数 = 1
  total optimization steps / 学習ステップ数: 366
steps:   0%|                                                                                                                                                                                 | 0/366 [00:00<?, ?it/s]
epoch 1/3
steps:  33%|███████████████████████████████████████████████████▋                                                                                                       | 122/366 [02:39<05:18,  1.31s/it, loss=0.103]
epoch 2/3
steps:  67%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 244/366 [05:24<02:42,  1.33s/it, loss=0.0896]
epoch 3/3
steps: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 366/366 [08:10<00:00,  1.34s/it, loss=0.0806]
saving checkpoint: /notebooks/TrainingData/outputs/zunko_breakdomain_M2000_repeats2_epochs3.safetensors
model saved.
steps: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 366/366 [08:13<00:00,  1.35s/it, loss=0.0806]

学習時間

学習ステップ数: 366となり、学習時間は08:13かかりました。

LoRAを使って生成した画像

こちらがLoRAを使って生成された画像です。

ステップ数が少なく学習が弱いので、ベースモデルのbreakdomain_M2000のタッチが強いイラストとなっていますが、ずん子さんの瞳や髪の色、髪飾りが描かれています。

MSI GeForce RTX 4060 Ti VENTUS 2X BLACK 16G OC グラフィックカード – RTX 4060 Ti GPU 16GB GDDR6

Stable Diffusionでの画像生成に最適！ VRAM16GB搭載モデル！

¥110,930 （2025/07/02 16:07時点 | Amazon調べ）

＼ポイント最大11倍！／