最近、AIが話題だけどどんなことにつかえるの?
Pythonのコード書けるから自分の環境で生成AIを使ってみたいけど、どうやればいいの?
こんな悩みを解決します。
- 生成系AIの種類
- 生成系AIの用途、適応分野
- 具体的な生成AIの使い方
2022年、Diffusion系AIがオープンソースで無料公開されて以降、爆発的に拡散、進化し続ける生成AI。今回は多くのAIが公開されている中で、手軽に使えるおすすめのAIを用途別に紹介します。
生成AI(Generative AI)とは
生成AI(Generative AI)は、人工知能によって新しいデータを生成することができるAIです。事前に大量のデータを使ってモデルを学習させ、そのモデルを使って新しいデータを生成します。
画像生成、音声生成、文章生成、3Dモデル生成など、様々なタイプのデータ作成に使用されています。
ニューラルネットワークを用いた機械学習手法を使用しており、 主にGenerative Adversarial Networks (GANs)や Variational Autoencoder (VAE)などが代表的な手法です。
生成AIは現在も研究が続けられており、さらに高精度なデータ生成、更に豊富なタスクに使用するための技術開発が進められていますが、すでに実用面で人間を遥かに超越するレベルに到達(特に質と量において)しているものが多数ありますので紹介したいと思います。ぜひ趣味や仕事に活用してみてください。
また、当サイトでは生成AIをPythonのプログラムから実行するための記事を多数紹介していますので、プログラミングの練習としても有効です。
Pythonのプログラミングに興味がある方向けには、プログラミングの習得方法に関する記事も公開していますので、あわせてご覧ください。
実用的なAIの活用方法を紹介
ここからはそれぞれのAIがどのような分野で活用されているかと、その使用方法について解説します。
画像生成系AI
画像生成系AIは、人工知能によって画像を生成することができます。データセットから学習したニューラルネットワークを使用して、新しい画像を生成することができるようになっています。
画像の増幅、生成対象の画像に物体を追加する、画像からの文字認識、画像のスタイル変換、3D画像の生成するなど、画像生成系AIは様々な画像制作用途に使用されています。
Stable Diffusion
Stable Diffusionは、2022年に公開されたディープラーニング(深層学習)のtext-to-imageモデルです。ミュンヘン大学のCompVisグループが開発した潜在拡散モデルであり、深層生成ニューラルネットワークの一種です。
主にテキスト入力に基づく画像生成(text-to-image)に使用されますが、画像入力(image-to-image)にも対応しており、構図や配色などを図で指示することも可能です。(出典:wikipedia)
Stable Diffusionはオープンソースとなっており、特定の用途に特化したカスタマイズされたモデルなども多数公開されており、ユーザーのPythonプログラムから実行することができます。
当ブログでもStable Diffusionの使い方に関する記事を多数公開していますので、以下のページをご参照ください。
Midjourney
Midjourneyは画像AIを使ったイラスト生成サービスです。Discodeをインタフェースとしており、PCだけでなくスマホなどからも手軽に使うことができます。
そして一番の特徴は簡単なPrompt(指示)を入力しただけで、非常に高精度なイラストが生成できる点です。以下の画像は「近未来的な大都市, サイバーバンク, 九龍城, 4k, 8k」という短いPromptを入力しただけで出力されました。
このクオリティのイラストをStable Diffusionで描こうとすると、Promptを作るのに相当な試行錯誤が必要(長文のPromot)が必要になります。私の予想ではありますが、おそらく入力されたPromptを拡張するための自然言語処理モデル等が併せて使われているのではないかと思われます。
Midjourneyは計算量に応じた有料のサービスではありますが、無料で使える枠が用意されていますので、ぜひ試してみてください。
文章生成系AI
文章生成系AIは、人工知能によって文章を生成することができます。ニューラルネットワークを用いた機械学習手法を使用して、大量のテキストデータを学習し、その学習でモルを使って新しい文章を生成することができるようになっています。
記事の要約や新聞の見出し、小説やエッセイの生成、プログラミングに関するドキュメントの生成、音声合成など、文章生成系AIは様々な用途に使用されています。
GPT-3
GPT-3 (Generative Pre-trained Transformer 3)は、OpenAIによって開発された、言語処理における大型の事前学習済みのニューラルネットワークモデルです。GPT-3は約1700億個のパラメータを持ち、膨大な数のテキストデータを学習し、自然言語処理タスク (文章生成、文章の解釈、文章の要約など) を高精度で行うことができます。
国内ではデジタルレシピ社がGPT-3を使ったCatchyという文章生成サービスを行っており、ブラウザ上から簡単に利用することができます。
以下のように用途に応じて様々な形式でアウトプットすることができるようになっていますので、私もブログの記事構成のたたき台の作成や、Stable DiffusionのPromt作成に使っています。
GPT-3を使った文章生成サービスCatchyは以下のページから使用できます。
以下のページで自然言語処理モデルGPT-3を使ったライティングツールCatchyで、Stable DiffusionのPromptを自動生成する方法について解説していますので、あわせてご覧ください。
私は特にブログの記事作成で頻繁に利用するので有料プランを契約していますが、無料枠も用意されていますので、気軽に試してみてください。
ChatGPT
ChatGPTは、OpenAIによって開発された、GPT-3をベースにした対話モデルです。GPT-3が膨大な数のテキストデータを学習し、自然言語処理タスクを高精度で行うことができるように訓練されているのに対し、ChatGPTは特に対話に特化して訓練されています。これにより、人工知能による対話システムの構築が可能になります。
最近では小学生がChatGPTに宿題を丸投げしているのが問題になっているというほど、質問に対して自然な会話と精度の高い情報を得ることができます。
また、言葉のやり取りにとどまらず、ソフトウェアのソースコードまで自動生成させることができます。
使用方法については、以下の記事で解説しています。
2023年3月からChatGPTの有料サブスクリプションであるChatGPT Plus加入者向けに新モデルGPT-4がリリースされました。パラメーター数は約100兆個に増加し、最大トークン数も32,768個まで使用可能となり、過去のモデルと比較しても圧倒的な性能を誇ります。
ChatGPT Plusの加入及びGPT-4の使用方法については、以下の記事で解説しています。
ChatGPTのAPI
ChatGPTはAPIが公開されており、Pythonのコードから実行することも可能です。
ChatGPTの機能を自分で作成したアプリケーションに組み込んで使用したいという方向けに、ローカルのPCやGoogle Colabで実行する方法を以下の記事で解説しています。
2023年2月にChatGPTの新しいモデル「got03.5-turbo」のAPIが公開されました。
従来のモデルの1/10程度のコストで利用でき、高速な応答が可能です。
まとめ
今回は今話題の生成AIについて紹介してみました。有償にはなりますが、生成AIのサービスを使用することで様々な作業の効率化に活用できるようになります。
また、Pythonのプログラムから実行できるものもあり、AIの機能を組み込んだアプリケーションを開発することも可能です。
ぜひ、この機会にPythonのプログラミングに挑戦してみてはいかがでしょうか?
それでは、また次の記事でお会いしましょう。
コメント