ChatGPT×Whisperで音声ファイルの内容を要約する方法

2023年4月10日2023年9月20日

URLをコピーしました！

今回はOpenAIがAPIを提供している音声認識システム、WhisperとChatGPTを組み合わせたシステムを紹介します。

Whisperは音声ファイルを自動で文字起こしすることが可能です。Whisperで文字列に変換したデータを、ChatGPTで要約するさせることで、音声ファイルの内容を短時間で確認することができます。

Whisperを使うと音声ファイルを文章データに変換できる。

短時間でのセミナー講座の受講や会議の議事録作成など、様々なシーンで活用できます。一連の処理を自動で実行するためのPythonコードを紹介しますので、ぜひ試してみてください。

また、当ブログ内のChatGPTについての記事を以下のページでまとめていますので、あわせてご覧ください。

あわせて読みたい

ChatGPTの使い方を解説｜ OpenAI 大規模モデルの活用法今回は当サイトで公開しているChatGPTをまとめました。これからChatGPTを始めてみたいと思っている方からAPIを使ってChatGPTを組み込んだアプリ開発をしてみたいと思っ…

ChatGPTとは

ChatGPTは、OpenAIが提供する自然言語生成モデルです。GPT（Generative Pre-training Transformer）と呼ばれるモデルのアーキテクチャを採用しています。

GPTは、Transformerと呼ばれるニューラルネットワークを使用して、文書や言語処理タスクでのテキスト生成を行うモデルです。GPTは、大量のテキストデータを学習し、そのデータをもとに新しい文章を生成することができます。

ChatGPTは、GPTをもとにしたモデルであり、対話型システムやチャットボットなどで使われることを想定して開発されています。対話を続けることができるようになっており、ユーザーが入力するテキストに対して、自然で返答ができるようになっています。

OpenAI APIキーの取得

ChatGPTと後程、紹介するWhisperを使用するためには、OpenAIのAPIキーを取得する必要があります。取得の手順については以下の記事で解説しています。

Murasan Lab

ChatGPTのAPI（text-davinci-002）をPythonコードから実行する方法｜ Google Colabにも対応 | Murasan Lab 今回はChatGPTのローカル環境での実行方法について解説します。簡単なPythonコードで実装でき、自宅のPCやGoogle Colaboratoryで実行できますので、アプリに組み込みたい場…

ゼロから作るDeep Learning ❷ ―自然言語処理編

オライリー・ジャパン

¥3,960 （2025/06/19 15:38時点 | Amazon調べ）

口コミを見る

Amazon

＼楽天ポイント4倍セール！／

楽天市場

Yahooショッピング

メルカリ

ポチップ

Whisperとは

Whisperは、OpenAIが開発した自動音声認識（ASR）システムです。APIを通じて提供され、ユーザーが簡単に音声データをテキストに変換できるようになっています。Whisperは、大量の音声データから学習したニューラルネットワークに基づいており、その性能は継続的に向上しています。

Whisperの主な特徴

複数の言語での音声認識に対応しています。これにより、世界中のユーザーがさまざまな言語で音声データをテキストに変換できます。
最先端のニューラルネットワーク技術を利用しており、非常に高い音声認識精度を実現しています。これにより、音声データを効率的にテキストに変換することができます。
Whisperはさまざまな用途で活用されています。例えば、音声アシスタント、音声入力システム、会議録の自動書き起こし、教育用途、オーディオブックの字幕作成、言語翻訳など、多岐にわたります。

APIの料金

Whisper APIを利用するためには、OpenAIのAPIキーが必要です。APIキーを取得したら、Pythonなどのププログラムでリクエストを送信し、音声データをテキストに変換できます。また、OpenAIはAPIの利用料金を設定しており、使用量に応じて課金されます。

あわせて読みたい

料金については以下のように記載されています。

Whisper, the speech-to-text model we open-sourced in September 2022, has received immense praise from the developer community but can also be hard to run. We’ve now made the large-v2 model available through our API, which gives convenient on-demand access priced at $0.006 / minute. In addition, our highly-optimized serving stack ensures faster performance compared to other services.

2023年4月現在、読み込む音声ファイルの長さに応じて1分あたり＄0.006という料金が設定されています。

料金は変更される可能性がありますので、OpenAIの公式サイトで確認してください。

公式ドキュメント

Whisperに関する公式ドキュメントは以下の通りです。

あわせて読みたい

OpenAIのライブラリのインストール

必要なライブラリをインストールします。コマンドプロンプトで以下のコマンドを実行してください。

pip install openai

あわせて読みたい

ジェネレーティブAIの力を解き放つ！Stable DiffusionやChatGPTを駆使するためのテクニックを習得できる… 世界をリードする動画学習プラットフォームであるUdemyで、未来を切り開くジェネレーティブAIの力を手に入れませんか？画像生成AI「Stable Diffusion」から最新の自然…

作成したPythonコード

ここからは実際に文字起こしから要約までを実行するためのPythonコードの実装方法を解説します。

コード解説

各種設定

「MOV_FILE_PATH」に要約したい音声ファイルのパスを指定してください。
「PROMPT_BASE」にどのような形で要約を出力してほしいかを指定してください。

openai.api_key = "（ここにOpenAIのAPIキーを設定）" #APIキー
MOV_FILE_PATH = "rd684.mp3" #読み込む音声ファイル
PROMPT_BASE = "次の文章を200字程度で要約してください。" #要約の仕方を指示
GPT_MODEL ="gpt-3.5-turbo" #使用する言語モデル

Whisperによる文字起こし

Whisperを使って音声ファイルから文章データを生成するには、以下の2行のコードを実行するだけです。
音声ファイルを「openai.Audio.translate」メソッドに渡すと、transcriptに文字列データが返されます。

audio_file= open(MOV_FILE_PATH, "rb")
transcript = openai.Audio.translate("whisper-1", audio_file)

ChatGPTのプロンプトを作成

出力形式を指定するプロンプト「PROMPT_BASE」と、WhisperのAPIより返された文字列データを結合して、ChatGPTに入力するプロンプトとします。

#ChatGPTプロンプトを作成
prompt = PROMPT_BASE + transcript.text

全体のPythonコード

以下が作成した全体のPythonコードです。
音声ファイル名は、必要に応じて変更してください。

import openai

openai.api_key = "（ここにOpenAIのAPIキーを設定）" #APIキー
MOV_FILE_PATH = "rd684.mp3" #読み込む音声ファイル
PROMPT_BASE = "次の文章を200字程度で要約してください。" #要約の仕方を指示
GPT_MODEL ="gpt-3.5-turbo"

#動画、オーディオファイルを開く
audio_file = open(MOV_FILE_PATH, "rb")

#Whisperで音声から文字お越し
transcript  = openai.Audio.transcribe("whisper-1", audio_file)


#ChatGPTで要約を作成
#ChatGPTプロンプトを作成
prompt = PROMPT_BASE + transcript.text

#推論を実行
response = openai.ChatCompletion.create(
  model=GPT_MODEL,
  messages=[
        {"role": "user", "content": prompt}
    ]
)

#ChatGPTの回答を出力
print(response["choices"][0]["message"]["content"])

あわせて読みたい

ChatGPTで未来を切り開く：Udemy講座で学ぶAIの最新技術今回は動画学習プラットフォームUdemyで受講可能なChatGPT関連のおすすめ講座を紹介します。Udemyの講座では、ChatGPTを使ったビジネスソリューションの開発から、ChatG…

実行結果

先ほどの作成したPythonコードが正しく動作するかを確認します。
音声ファイルをWhisperで文字列データに変換し、それをChatGPTに入力して要約文を作成します。

音声素材

テストで使用する音声データは青空文庫の朗読サイト、「青空朗読」で公開されているものを使用します。

あわせて読みたい

青空朗読 | 青空文庫に所蔵されている本を朗読しています「青空朗読」はインターネット上の図書館である「青空文庫」に掲載されている本を朗読することで、小説や童話、歴史、社会科学などの優れた作品をもっと多くの人々に味わっ…

今回は、芥川龍之介の「魚河岸」を使用します。音声ファイルの時間も11分程度と、テストでは丁度よい長さです。

あわせて読みたい

魚河岸 | 青空朗読

Whisperによる文字起こしの結果

まずは「魚河岸」の音声ファイルをWhisperのAPIに入力し、文字起こしを行います。Whisperで生成されたデータは以下となります。

あくたがわりゅうのすけさくうおがし去年の春の夜といってもまだ風の寒い月のさえた夜の九時ごろやすきちは三人の友達とうおがしの往来を歩いていた三人の友達とは俳人の路西洋画家の風中薪江氏の除丹三人とも
本名は明かさないがその道では知られた腕っこきであることに路西は年笠でもあり新慶行の俳人としては都に名を馳せた男だった我々は皆酔っていたもっとも風中と靖吉とは外子除丹は名代の主号だったから三人は普段と変わらなかったただ路西はどうかすると足元も少々危なかった我々は路西を仲にしながら生臭い月明かりの吹かれる通りを日本橋の方へ歩いて行った路西は喫水の江戸っ子だった曹操夫は食産や文帳とこういうの扱った人であるいえも菓子の丸生といえばあの界隈では知らぬものはないそれを路西はずっと前から家業はほとんど人任せに従り自分は三夜の路地の奥に食と書と転穀等を楽しんでいただから路西には我々にないどこかいなせな風格があった下町片城よりは殿房な山の手にはもちろん縁の遠いいわば菓子のマグロの寿司と一味相通ずる何者かがあった路西はさも邪魔そうに時々街頭の袖をはねながら快活に我々と話し続けた女譚は静かに笑い笑い話の合図を打っていたそのうちに我々はいつのまにか菓子のとっつきへ来てしまったこのまま菓子を出抜けるのはみんな妙に物足りなかったするとそこに養殖屋が一見片側を照らした月明かりに白いのれんをたらしていたこの店の噂は靖吉さえも何度か聞かされたことがあった入ろうか入ってもいいなそんなことを言い合ううちに我々はもう風中を先に狭い店の中へなだれ込んでいた店の中には客が二人細長い卓に向かっていた客の一人は菓子の若い衆もう一人はどこかの食行らしかった我々は二人ずつ向かい合いに同じ卓に割り込ませてもらったそれから平貝のフライを魚にちびちび正宗をなめ始めたもちろん下骨の風中や靖吉は二つとちょくは重ねなかったその代わり料理を平げさすと二人ともなかなか健坦だったこの店は卓も腰掛もニスを塗らない白木だったおまけに店を加工者は江戸伝来の吉津だっただから洋食が食っていてもほとんど洋食屋とは思われなかった風中はあつらえた美不敵が来るとこれは切り身じゃないかと言ったりした序端はナイフの切れるのに大いに敬意を表していた靖吉はまた伝統の明るいのがこういう場所だけにありがたかった路西も路西は土地っこだから何も珍しくはないらしかったしか取口棒を網だにしたまま序端と研修を重ねては相変わらず快活に喋っていたするとその最中に中折れ棒をかぶった客が一人ぬとのれんをくぐって来た客は街頭の毛皮の衿に太った頬をうずめながら見るというよりはにらむように狭い店の中へ目をやったそれから一言の挨拶もせず序端と若い衆との間の席へ大きい体を割り込ませた靖吉はライスカレーをすくいながらいやなやつだなと思っていたこれが泉強化の小説だと人気を喜ぶべき芸者か何かに退治られるやつだがと思っていたしかしまた現代の日本橋は到底強化の小説のように動きっこはないとも思っていた客は注文を通した後王兵に煙草を吹かし始めたその姿は見れば見るほど堅木役の寸法にはまっていた油ぎったあから顔はもちろん大島の羽織認めになる指輪ことごとく肩を入れなかった靖吉はいよいよ当てられたからこの客の存在を忘れたさに隣にいる路西へ話しかけたが路西はうんとかえーとかいい加減な返事しかしてくれなかったのみならず彼も当てられたのか伝統の光に背きながらわざと取り打ち棒をまぶかにしていた靖吉はやむを得ず風中や女譚と食い物のことなどを話し合ったしかし話は弾まなかったこの太った客の出現以来我々三人の心持ちに妙な狂いのできたことはどうにも仕方のない事実だった客は注文のフライが来ると正宗の瓶を取り上げたそうして直へ継ごうとしたその時誰か横合いから高山とはっきり呼んだものがあった客は明らかにびっくりしたしかもその驚いた顔は声の主を見たと思うとたちまち当枠の色に変り出したいやこりゃ旦那でしたか客は中折れ棒を脱ぎながら何度も声の主にお辞儀をした声の主は廃人の路西貸野丸生の旦那だったしばらくだね路西は涼しい顔をしながら直を口へ持っていったその直が空になると客はすかさず路西の直へ客自身の瓶の酒をついだそれから畠にはおかしいほど路西の起源をうかがい出した京歌の小説は死んではいない少なくとも東京の魚菓子にはいまだにあの通りの事件も起るのであるしかし養殖屋の外へ出た時安吉の心は沈んでいた安吉はもちろん高山には何の同情も持たなかったその上路西の話によると客は人格も悪いらしかったがそれにもかかわらず妙に陽気にはなれなかった安吉の書斎の机の上には読みかけた露出風光の語録がある安吉は月明かりを踏みながらいつかそんなことを考えていた最初11年7月

ChatGPTで要約された出力結果

続いて先ほどの文字起こししたデータを、200文字程度に要約するようChatGPTに指示し、出力された要約文は以下となります。

春の夜、俳人の路西と洋画家の風中、薪江氏の除丹が三人で歩いていた。彼らは皆酔っていたが、路西は足元が少し危なかった。彼らは菓子の店へ入り、客の一人が入ってきたが、周りの雰囲気が悪くなった。しかし、彼が旦那であることが判明し、
その後は楽しい時間を過ごした。ただ、終わった後、安吉は心が沈んでいた。彼は高山に同情する気持ちも持たず、客が人格も悪いらしいことを聞いて陽気になれなかった。そんなことを考えながら、彼は月明かりを踏みながら帰っていった。

概ね正しく要約されていることが確認できました。

＼ Pythonを自宅で好きな時に学べる！／

オンラインPython学習サービス「PyQ™（パイキュー）」

まとめ

今回はOpenAIがAPIを提供している音声認識システムと、ChatGPTを組み合わせた音声ファイルの要約システムの構築方法を紹介しました。
ぜひ、ビジネスやリスキリングで活用してみてください。

また、以下の記事で効率的にPythonのプログラミングスキルを学べるプログラミングスクールの選び方について解説しています。最近ではほとんどのスクールがオンラインで授業を受けられるようになり、仕事をしながらでも自宅で自分のペースで学習できるようになりました。

スキルアップや副業にぜひ活用してみてください。

あわせて読みたい

Pythonが学べるプログラミングスクール5選｜初心者にもおすすめプログラミングスクールってたくさんあって、どのスクールを選んだらいいのかな？自分のキャリアアップに必要なカリキュラムがあるプログラミングスクールを探したいん…

スクールではなく、自分でPythonを習得したい方には、いつでもどこでも学べる動画学習プラットフォームのUdemyがおすすめです。

講座単位で購入できるため、スクールに比べ非常に安価（セール時1200円程度～）に学ぶことができます。私も受講しているおすすめの講座を以下の記事でまとめていますので、ぜひ参考にしてみてください。

あわせて読みたい

Python初心者におすすめ！いつでもどこでもスマホで学べるUdemy講座6選 Udemyってどんなサービスなの？仕事の案件で機械学習を扱うことになったけど、どうやって勉強したらしいんだろう？こんな悩みを解決します。この記事でわかること Ud…

それでは、また次の記事でお会いしましょう。

入門自然言語処理

著:Steven Bird, 著:Ewan Klein, 著:Edward Loper, 翻訳:萩原正人, 翻訳:中山敬広, 翻訳:水野貴明

¥4,170 （2023/09/18 22:14時点 | Amazon調べ）

口コミを見る

Amazon

＼楽天ポイント4倍セール！／

楽天市場

Yahooショッピング

メルカリ

ポチップ

機械学習・深層学習による自然言語処理入門 (Compass Booksシリーズ)

著:中山光樹

¥3,000 （2023/09/18 22:15時点 | Amazon調べ）

口コミを見る

Amazon

＼楽天ポイント4倍セール！／

楽天市場

Yahooショッピング

メルカリ

ポチップ

参考

あわせて読みたい

Whisper – a Hugging Face Space by openai Convert spoken words from microphone recordings, audio files, or YouTube videos into text. Users can choose to transcribe or translate the audio.

あわせて読みたい