こんにちはmOqOmです。
今回はWindowsにTesseract OCRをインストールする手順について紹介していきます。
Tesseract OCRのダウンロード
まずは、Tesseract OCRのインストーラーをダウンロードしていきます。
LinuxやMacでは、リポジトリからインストールできますがWindows版についてはドイツのマンハイム大学図書館提供のインストーラーを利用します。また、マンハイム大学図書館ではTesseractで歴史的な新聞の文字認識を行っています。
以下のページにアクセスしてWindows用のインストーラーをダウンロードします。32bit版と64bit版がありますが、今回は64bit版をダウンロードします。

Tesseract OCRのインストール
Tesseract OCRのインストーラーをダウンロードしたら実行してインストールをしていきます。
まず、インストーラーが起動すると言語選択画面が表示されるので【 English 】を選択します。

言語選択後は、デフォルト設定のままクリックして進めます。



追加スクリプトと追加言語データをダウンロードする必要があるので【 Additional script data (download) 】と【 Additional language data (download) 】の設定では【 Japanese ~ 】から始まる文字について選択します。



Tesseract OCRのインストール先を選びます。(デフォルトの設定でOK)


追加スクリプトと追加言語データがダウンロードされインストールが完了するまで待機します。



Tesseract OCRのテスト
インストールしたTesseract OCRが正常にOCRできているか確認していきます。
今回使用する以下のOCR対象画像(sample-ocr.png)を使用します。

上記の画像を任意フォルダに保存して、コマンドプロンプトに以下のコマンドを実行すると文字認識を実行します。末尾の【 -l jpn 】は日本語で認識させるためのオプションです。
また、日本語の縦書き文書なら【 -l jpn_vert 】を指定します。

実際に使用したコマンドは以下のようになります。
※remはcmdのコメントとして扱われますので無視してください。
rem Tesseract OCRがインストールされているディレクトリに移動します。
cd C:\Program Files\Tesseract-OCR
rem 画像をテキストに変換する実行例
tesseract.exe "C:\Users\user\Desktop\sample-ocr\sample-ocr.png" "C:\Users\user\Desktop\sample-ocr\ocr-test-out" -l jpn
コマンドを見やすく表すと以下のような状態になります。
tesseract.exe "<画像ファイル名>" "<出力先>" -l jpn
実際にTesseract OCRを実行した結果です。
ほぼ完璧ですね!

コメント