OCRで写真や画面キャプチャ画像から文字列データを取得する方法

2023年4月13日2023年4月14日

URLをコピーしました！

今回はPythonのプログラムで写真やキャプチャ画像からテキストを簡単に抽出できる方法を紹介します。

光学式文字認識にはGoogleがオープンソースで公開しているTesseract OCRエンジンを使用します。画像処理やデータ分析、事務処理業務の自動化など、様々な場面で役立ちますので、ぜひ活用してみてください。

使用するPythonライブラリ

pytesseract

pytesseractは、GoogleのTesseract OCRエンジンをPythonプログラムから簡単に利用できるようにするラッパーライブラリです。Tesseract OCRは、光学式文字認識（OCR）のためのオープンソースエンジンで、多くの言語に対応しています。pytesseractを使用することで、画像からテキストを抽出するプロセスを簡単かつ効率的に実行できます。このライブラリは、画像処理、文書スキャン、自動化などのさまざまなアプリケーションで利用されています。

Pillow (PIL Fork)

Pillowは、画像の読み込み、変換、フィルタリング、描画などの機能を提供しています。さまざまな画像フォーマットに対応し、高速な画像操作が可能です。Pillowは、ウェブアプリケーションやデータ分析、画像処理などの幅広い分野で利用されています。
今回紹介するプログラムでは、pytesseractに入力する画像をRGBモードに変換するために使用します。

ライブラリのインストール

コマンドプロンプトで以下のコマンドを実行してください。

pip install pytesseract
pip install Pillow

日本語データをダウンロード

日本語の言語ファイルをダウンロード

Tesseractに日本語を認識させるためには、日本語の学習データファイルが必要です。

日本語の学習データファイルをダウンロードし、適切な場所に配置します。その後、環境変数TESSDATA_PREFIXを設定して、Tesseractが学習データファイルを参照できるようにします。

言語ファイルのダウンロードページ（https://github.com/tesseract-ocr/tessdata）にアクセスします。「jpn.traineddata」という日本語の言語ファイルをダウンロードし、tessdataactのディレクトリに配置します。
（Anacondaを使用した場合のディレクトリの例です）

C:/Users/（ユーザー名）/anaconda3/pkgs/tesseract-5.3.0-hcb5f61f_0/share/tessdata

使用できる言語を確認する

言語ファイルの配置が完了したら、コマンドプロンプトで以下のコマンドを実行すると使用できる言語ファイルを確認することができます。

tesseract --list-langs

作成したPythonコード

ここからは実際にpytesseractを使った光学文字認識処理の実装方法について解説します。

Pythonコード解説

読み込む画像ファイルの指定

読み込む画像ファイルのパスを変数 IMG_FILE_PATH に設定します。

#読み込む画像ファイルのパスを設定
IMG_FILE_PATH = "ocrtest.jpg"

環境変数の設定

Tesseract OCRの言語ファイルが格納されているパスを変数 tessdata_dir に設定し、環境変数 TESSDATA_PREFIX にこれを設定します。これにより、Tesseract OCRが言語ファイルを正しく読み込めるようになります。

#言語ファイルのパスを環境変数に設定
tessdata_dir = "C:/Users/（ユーザー名）/anaconda3/pkgs/tesseract-5.3.0-hcb5f61f_0/share/tessdata"
os.environ["TESSDATA_PREFIX"] = tessdata_dir

RGBモードへ変換

image.convert('RGB') を使って画像をRGBモードに変換します。これにより、画像が異なるモード（例：CMYKやグレースケール）であっても、Tesseract OCRが処理できる形式に変換されます。（RGBモード以外だと読み込み時にエラーが発生する場合があります）

#画像をRGBモードに変換
image = image.convert('RGB')

光学文字認識処理を実行

pytesseract.image_to_string() 関数を使って、画像から文字列データを抽出します。この関数には、処理対象の画像オブジェクトと、使用する言語（ここでは日本語）を指定します。

#画像から文字列データを抽出
text = pytesseract.image_to_string(image, lang='jpn')

全体のソースコード

作成したPythonの全体のソースコードは以下の通りです。

from PIL import Image
import pytesseract
import os

#読み込む画像ファイルのパスを設定
IMG_FILE_PATH = "ocrtest.jpg"

#言語ファイルのパスを環境変数に設定
tessdata_dir = "C:/Users/（ユーザー名）/anaconda3/pkgs/tesseract-5.3.0-hcb5f61f_0/share/tessdata"
os.environ["TESSDATA_PREFIX"] = tessdata_dir

#画像ファイルを開く
image = Image.open(IMG_FILE_PATH)

#画像をRGBモードに変換
image = image.convert('RGB')

#画像から文字列データを抽出
text = pytesseract.image_to_string(image, lang='jpn')

#結果を出力
print(text)

実行結果

認識させる画像

今回は動作テストに使用する画像として以下のページで公開している芥川龍之介の「魚河岸」の一部をスクリーンショットしたものを使用します。

Murasan Lab

ChatGPT×Whisperで音声ファイルの内容を要約する方法 | Murasan Lab 今回はOpenAIがAPIを提供している音声認識システム、WhisperとChatGPTを組み合わせたシステムを紹介します。Whisperは音声ファイルを自動で文字起こしすることが可能です。…

実際のスクリーンショットがこちらです。

pytesseractの出力

先ほどのプログラムを実行し、Tesseract OCRで文字認識した結果が以下となります。

あくたがわりゅうのすけさくうおがし去年の春の夜といってもまだ風の寒い月のさえた夜の
九時ごろやすきちは三人の友達とうおがしの往来を歩いていた三人の友達とは俳人の路西洋
画家の風中新江氏の除丹三人とも
本名は明かさないがその道では知られた腕つっこきであることに路西は年笠でもあり新塵行の
俳人としては都に名を馳せた男だった我々は皆酔っていたもっとも風中と靖吉とは外子除丹
は名代の主号だったから三人は普段と変わらなかったただ路西はどうかすると足元も少々危
なかった我々は路西を仲にしながら生臭い月明かりの吹かれる通りを日本橋の方へ歩いて行
つた路西は喫水の江戸っ子だった曹操夫は食産や文帳とこういうの扱った人であるいえも菓
子の丸生といえばあの界隈では知らぬものはないそれを路西はずっと前から家業はほとんど
人任せに従り自分は三夜の路地の奥に食と書と転殺等を楽しんでいただから路西には我々に
ないどこかいなせな風格があった下町片城よりは殿房な山の手にはもちろん縁の遠いいわば
某子のマグロの寿司と一味相通ずる何者かがあった路西はさも邪魔そうに時々街頭の袖をは
ねながら快活に我々と話し続けた女主は静かに笑い笑い話の合図を打っていたそのうちに
我々はいつのまにか菓子のとっつきへ来てしまったこのまま菓子を出抜けるのはみんな妙に
物足りなかったするとそこに養殖屋が一見片側を照らした月明かりに白いのれんをたらして
の店の叶は靖吉さえも何度か聞かされたことがあった入ろうか入ってもいいなそんな
い合ううちに我々はもう風中を先に狭い店の中へなだれ込んでいた店の中には客が
二人細長い剤に向かっていた客の一人は菓子の若い衆もう一人はどこかの食行らしかった
我々は二人ずつ向かい合いに同じ卓に割り込ませてもらったそれから平具のフライを魚にち
びちび正宗をなめ始めたもちろん下骨の風中や靖吉は二つとちょくは重ねなかったその代わ
り料理を平げさすと二人ともなかなか健坦だったこの店は卓も腰掛もニスを準らない白木だ
つたおまけに店を加工者は江戸伝来の吉津だっただから洋食が食っつていてもほとんど洋食屋
とは思われなかった風中はあつらえた美不敵が来るとこれは切り身じゃないかと言ったりし
た序端はナイフの切れるのに大いに敬意を表していた靖吉はまた伝統の明るいのがこういう
場所だけにありがたかった路西も路西は土地っこだから何も珍しくはないらしかったしか取
口棒を網だにしたまま序端と研修を重ねては相変わらず快活に喋っていたするとその最中に中
折れ棒をかぶった客が一人ぬとのれんをくぐって来た客は街頭の毛皮の鶴に太った類をうず
めながら見るというよりはにらむように狭い店の中へ目をやったそれから一言の挨拶もやせず
序端若い衆との間の席へ大きい体を割り込ませた靖吉はライスカレーをすくいながらいや
なやつだなと思っていたこれが和泉強化の小説だと人気を喜ぶべき芸者か何かに退治られるや
つだがと思っていたしかしまた現代の日本林は到底強化の小説のように動きっこはないとも
思っていた客は注文を通した後王兵に煙革を吹かし始めたその姿は見れば見るほど堅木役の
寸法にはまっていた油ぎったあから顔はもちろん大島の羽織認めになる指輪ことごとく肩を入
れなかった靖吉はいよいよ当てられたからこの客の存在を忘れたさに隣にいる路西へ話しか
けたが路西はうんとかえーとかいい加減な返事しかしてくれなかったのみならず彼も当てら
れたのか伝続の光に音きながらわざと取り打ち棒をまぶかにしていた靖吉はやむを得ず風中

発生したエラー

実行時に発生したエラーです。

raise TesseractError(proc.returncode, get_errors(error_string))
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file ./jpn.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'jpn\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

言語ファイルが正しい場所に配置されていないと、環境変数を設定していても発生するようです。デフォルトの言語ファイルが配置されているディレクトリを検索し、同じ場所に配置してみてください。

まとめ

今回は、Tesseract OCRを使った画像からの文字抽出プログラムを作成しました。このプログラムは、OCR技術を利用して画像内のテキストを瞬時に取得できます。気になったWebサイトや書籍、雑誌などの情報もOCRを活用することで効率的にストック、利用できますのでぜひ活用してみてください。

Tesseract OCRで検出した文章をChatGPTで要約する方法についても以下の記事で解説しています。