Stable Diffusionでの画像生成におすすめのグラフィックボード(GPU)を紹介

  • URLをコピーしました!

※本ページはアフィリエイト広告を利用しています

今回は画像生成AIであるStable Diffusionを、ローカル環境で使用する際におすすめのグラフィックボードについて解説します。

Stable Diffusionのような画像AIでは、画像を生成する推論処理や、LoRAなどの追加学習処理を実行する際に、膨大な量の計算を行う必要があります。

これらの計算は非常に時間がかかるため、GPUと呼ばれる画像処理用のデバイスを使って高速化します。

また、画像生成AIではGPUを実装しているグラフィックボード上のメモリであるVRAMの容量によって、生成できる画像サイズの上限が決まるため、グラフィックボードの選定は非常に重要な要素となります。

Stable Diffusionではグラフィックボードの性能で生成スピードと画像サイズが決まる。

今回は用途別におすすめのグラフィックボードを紹介しますので、選定の際の参考にしてみてください。

この記事でわかること
  • Stable Diffusionで使えるおすすめのグラフィックボード
  • 各グラフィックボードのスペック比較
  • 各グラフィックボードの価格と入手先

また、当ブログのStable Diffusionに関する記事を以下のページでまとめていますので、あわせてご覧ください。

Stable Diffusionの導入方法から応用テクニックまでを動画を使って習得する方法についても以下のページで紹介しています。

目次

グラフィックボードとは

グラフィックボードは、画像や映像を高速に処理するためのハードウェアです。

3Dゲームや高解像度の映像のレンダリングなど、大量の計算を要する処理においてその能力を発揮します。しかし、その利用用途はエンターテイメントに留まらず、近年ではAI(人工知能)の学習や推論処理にも利用されています。

AIの学習や推論は膨大な量の計算が必要とされ、それらを高速に行うためにはグラフィックボードが有効です。

特に、深層学習と呼ばれる手法は多くの演算が必要とされるため、GPU(Graphics Processing Unit)が搭載されたグラフィックボードは不可欠なツールとなっています。これにより、高度な画像認識や自然言語処理を実現しています。

GPUを選定する際のポイント

GPUを選定する際に基準となるポイントをまとめました。

GPUを選定する際のポイント
  • CUDAコアの数:CUDAコアはNVIDIAのGPUにおける並列処理ユニットで、その数が多いほど、より多くの計算を同時に行うことが可能になります。これは、機械学習やゲームのパフォーマンスに直接影響します。
  • Tensorコア、RTコア:Tensorコアは、機械学習の計算を高速化するための特殊なハードウェアで、RTコアはレイトレーシング(光の挙動をシミュレートする技術)を高速化します。これらは、それぞれ機械学習とゲームのパフォーマンスに影響を与えます。
  • 浮動小数点性能:これらは、GPUが単精度(FP32)と倍精度(FP64)の浮動小数点演算をどれだけ速く行えるかを示します。機械学習では、特にFP32のパフォーマンスが重要となることが多いです。
  • メモリ(VRAM):GPUのメモリは、GPUが直接アクセスできるデータの量を決定します。機械学習では、大量のデータを扱うために大きなメモリが必要となることがあります。特に画像生成AIで出力できる画像の最大サイズがVRAM容量で制約を受けます。ゲームでは、高解像度のテクスチャや複雑なシーンをレンダリングするために、十分なメモリが必要となります。
  • メモリ帯域幅:メモリ帯域幅は、GPUがメモリからデータを読み書きする速度を示します。これは、機械学習やゲームのパフォーマンスに大きな影響を与えます。
  • TDP(Thermal Design Power):TDPは、GPUが消費する最大電力を示します。これは、冷却システムの要件や電源ユニットの選択に影響します。

画像の生成、追加学習の速度に影響するポイント

画像の生成や追加学習の速度に大きく影響を与えるのが、CUDAコア数、Tensorコア数、浮動小数点性能です。Stable Diffusionの推論処理やLoRAでの追加学習を行う際の計算処理の実行実行速度が変わります。

また、演算に必要なデータをVRAMに対して入出力する際、VRAMとGPU間の高速通信バスのバンド幅(帯域)が狭いと、通信遅延がボトルネックになり全体のパフォーマンスが低下します。

画像の生成サイズに影響するポイント

GPUの性能以外に重要なのが、グラフィックボードに搭載されるVRAMの容量です。

VRAMの容量によって生成できる画像のサイズが制約を受けますので、VRAM容量が多い程、高解像度の画像が生成できることになります。

以下は私が後程紹介するNVIDIA RTX A4000を使って画像生成を行ったときに発生したエラーの例です。
VRAM16GBを搭載していますが、1024*1024の画像をhires.fixを使って2倍のサイズにアップスケールしようとしたところ、このようにVRAMが不足してエラーで停止してしまいました。

RuntimeError: CUDA out of memory. Tried to allocate 2.00 GiB (GPU 0; 15.90 GiB total capacity; 10.20 GiB already allocated; 1.86 GiB free; 13.17 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

日本語訳:
RuntimeErrorです: CUDAのメモリが不足しています。Trying to allocate 2.00 GiB (GPU 0; 15.90 GiB total capacity; 10.20 GiB already allocated; 1.86 GiB free; 13.17 GiB reserved in total by PyTorch) もし予約メモリが >> 割り当てメモリなら、断片化を防ぐために max_split_size_mb を設定してみてください。 メモリ管理およびPYTORCH_CUDA_ALLOC_CONFのドキュメントを参照してください。

このように、単純に画像サイズだけでなく、組み合わせる機能によってもVRAMの使用量は変化します。

Stable DiffusionにおすすめのGPU一覧

ここからは、Stable Diffusionで画像生成を行うのにおすすめのグラフィックボードを紹介します。

画像生成AIだけで使用するのか、それともゲーム用のアクセラレータとしても併用するのかで選択肢が変わってきますので、目的別に紹介します。

ゲーム用GPU

Stable Diffusionでの画像生成もしたいけど、ゲームも楽しみたいという方におすすめのグラフィックボードがGeForce RTX 40系GPUを搭載した製品です。

3Dゲームでは光の屈折や反射などの物理現象をシミュレーションするレイトレーシング機能が重要となります。
GeForce RTX 40系はレイトレーシング性能にも優れたGPUを搭載しています。

GeForce RTX 4060Ti

GeForce RTX 4060Tiは、GeForce系エントリーモデルであるRTX 4060のオーバークロックで動作する高性能バージョンです。RTX 4060Tiは発売当初、VRAMが8GB版のみのラインナップとなっていましたが、2023年7月にVRAM 12GB版が登場しました。

10万円以下の低価格でありながら、第 4 世代Tensorコアを搭載し、VRAMも16GB(DDR6)という高速大容量の仕様となっており、画像生成AIに最適なグラフィックボードです。

GeForce RTX 4070

GeForce RTX 4070はVRAMが12GBを搭載しており、2023年6月現在、実売価格も9万円程度~となっているため、入門用に最適です。また、今回紹介するグラフィックボードの中では低価格ではありますが、最新の第 4 世代Tensorコアを搭載しており、画像生成も高速に実行できます。

低価格で、かつゲームでも使用したい方に最適なグラフィックボードです。

GeForce RTX 4080

GeForce RTXシリーズで少し大きめの画像サイズを生成したい方向けには、GeForce RTX 4080がおすすめです。

GeForce RTX 4080は16GBのVRAMを搭載しています。
私が実際に16GBのVRAMを使ってStable Diffusionで生成した際には、512*512をHires.fixで3倍した1536*1536までは問題なく生成できていました。また、アップスケーラなしの場合は2048*2048も生成できました。(組み合わせるアップスケーラや、拡張機能により、VRAM使用量は変わりますので参考程度にしてください)

ゲームもやりつつ、画像AIで1536*1536程度までの画像を生成したい方におすすめです。2023年6月現在、実売価格は20万程度~となっています。

GeForce RTX 4090

予算に余裕がある方には、GeForce系のフラッグシップであるGeForce RTX 4090がおすすめです。

コンシューマ向けGPUでは、最大のCUDAコア数で、VRAM容量も24GBと画像生成には最高のスペックとなっています。

機械学習や、レイトレーシング性能では圧倒的な性能を持っていますが、その分消費電力や発熱も大きいため、電源容量やケースの冷却システムもRTX 4090に対応できるものを用意する必要があります。

プロフェッショナル向けGPU

プロフェッショナル向けのグラフィックスカードは、映像制作や機械学習、科学技術計算などに使用することを目的としたGPUを搭載しています。
ゲームでは利用せず、画像生成AIを始めとした機械学習にのみグラフィックボードを使用したいという方におすすめです。

ゲームで重要なレイトレーシング性能はGeForce系に劣りますが、大容量VRAMを搭載しており、低消費電力の設計となっていますので、画像生成AIなどの用途にも最適です。

RTX A4000

RTX A4000はプロフェッショナル向けのグラフィックスカードで、16GBという大容量VRAMを搭載していますので、GeForce RTX 4080と同等の画像サイズを生成することができ、尚且つ2023年6月現在、実売価格が13万円程度~と非常にリーズナブルです。

私自身もStable Diffusionで画像生成する際にA4000が一番よく使用するグラフィックボードであり、用途をゲーム以外と割り切れる場合であれば最もおすすめのGPUです。(私はゲームする際はフルHDのディスプレイ1枚なのでGTX 1660 Superを使っています)

私の個人的な感覚ですが、画像生成スピードも充分でストレスを感じないレベルです。

RTX A4000に関しては以下の記事でパフォーマンス計測もしていますので、選択の参考にしてみてください。

RTX A5000

先ほど紹介したRTX A4000の上位機種にあたるのが、RTX A5000です。こちらもA4000同様にプロフェッショナル向けのグラフィックボードとなっています。

最新のGeForce RTX 40シリーズと比較するとTensorコア、RTコア共に1世代前のものになりますが、VRAMは24GBの大容量を搭載しています。

そして、最大の特徴は230Wという低消費電力です。(GeForce RTX 4090の半分程度)
長時間連続稼働させることを考えると、電力コストと発熱量は重要なポイントとなりますので、大きなメリットです。

2023年6月現在、実売価格は30万程度~となっており、GeForce RTX 4090と同じ程度の価格帯です。

ピーエヌワイ(PNY)
¥416,998 (2024/04/27 07:13時点 | Amazon調べ)

GPU性能比較表

今回紹介したGPUを比較表にまとめました。

NVIDIA
GeForce RTX 4060Ti
NVIDIA
GeForce RTX 4070
NVIDIA
GeForce RTX 4080
NVIDIA
GeForce RTX 4090
NVIDIA RTX A4000NVIDIA RTX A5000
CUDAコア数4352588897281638461448192
Tensorコア数第 4 世代
136
第 4 世代
184
第 4 世代
304
第 4 世代
512
第3世代
192
第3世代
256
RTコア数第 3 世代
34
第 3 世代
46
第 3 世代
76
第 3 世代
128
第2世代
48
第2世代
64
メモリ容量16GB GDDR612GB GDDR616GB GDDR6X24GB GDDR6X16GB GDDR624GB GDDR6
メモリ帯域幅288.0 GB/s504GB/s716GB/s1008GB/s448GB/s768GB/s
ブーストクロック2310MHz1920MHz2505MHz2520MHz1560MHz1695MHz
ベースクロック2535MHz2475MHz2205MHz2235MHz735MHz1500MHz
浮動小数点性能22.06 
TFLOPs
29.15 TFLOPs48.74
TFLOPs
82.58
TFLOPs
19.2 TFLOPs27.8 TFLOPs
TDP160W200W320W450W140W230W
GPU比較表

最安でローカル環境を構築したい方向けGPU

ここまでは現在、販売されている最新の世代のGPUを紹介してきました。

しかし、一番手頃なGeForce RTX 4070でも10万円程度~と、なかなか予算的に厳しく手がでないという方も多いかと思います。

まずは極力低予算で環境を構築したいという方には、1世代前のGeForceシリーズがおすすめです。

NVIDIA GeForce RTX 3060 12GB

NVIDIA GeForce RTX 30シリーズは現行のRTX 40シリーズの1世代前の製品となりますが、その中でエントリーモデルとなるNVIDIA GeForce RTX 3060には12GBの大容量VRAMを搭載しているモデルが存在します。

最安でStable Diffusion環境を構築したい方向け!
¥42,800 (2024/04/22 17:53時点 | Amazon調べ)

NVIDIA GeForce RTX 3060 12GBのスペックは以下となります。

GPU: NVIDIA GeForce RTX 3060 12GB
CUDAコア数: 3584
Tensorコア数: 112
RTコア数: 28
メモリ容量: 12GB GDDR6
メモリ帯域幅: 360.0 GB/s
ブーストクロック: 1777MHz
ベースクロック: 1320MHz
フローティングポイント性能: 12.74 TFLOPS
TDP: 170W

速度こそ現行のGeForce RTX 40シリーズには劣りますが、12GBのVRAMを搭載しており、1536*1536程度の画像サイズまでは問題なく生成でき、何より4万円台という圧倒的な低価格で新品が購入できるというのが大きな魅力です。

2023年6月現在では、おそらく製造自体は終了しており市場在庫のみと思われますので、検討される方は早めの購入をおすすめします。

まとめ

今回はStable Diffusionでおすすめのグラフィックボードについて紹介しました。

あくまで私の個人的な感想ですが、結論としては以下のような感じです。

結論

画像サイズを考えると、やはりVRAM16GBは欲しいところです。画像AI限定と割り切れる方であればGeForce RTX 4060Ti 16GB、ゲームも併せて楽しみたい方はGeForce RTX 4080がおすすめです。

また、RTX A4000は以下の記事でパフォーマンス計測をしていますので、参考にしてみてください。

それでは、また次の記事でお会いしましょう。

参考

https://www.techpowerup.com/gpu-specs/geforce-rtx-4080.c3888
https://www.techpowerup.com/gpu-specs/geforce-rtx-4090.c3889

よかったらシェアしてね!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次