【スマートものづくりエキスパート育成スクール取組】(4) 文字認識TesseractOCRやってみる

改善活動

2022年2月25日2023年3月3日

はじめに

前回の記事　【スマートものづくりエキスパート育成スクール取組】(3)カメラ画像を取得　より、OpenCVを使用して、カメラ画像を取得できるようになりました。

SDGsとは持続可能でよりOpenCVでは画像処理を行うことができますが、
まず、画像処理を行わない状態で取得したカメラ画像から文字認識をやってみたらどうなの？
ということで、さっそく文字認識やってみようと思います。

Tesseract OCR

Googleが無料で提供している文字認識ライブラリのTesseract OCRを利用します。
インストールを行っておきます。
また、PythonからOCRを利用可能にするためのモジュールであるPyOCRもインストールしておきます。

(1)画像からテキストを出力する

カメラから取得した画像からテキストを出力し、コンソールに出してみます。

次のようにソースを書きます。
認識させたい文字列であるカード識別番号は英数字のため、読み取り対象言語はEnglishに設定します。
キーボードの”C”キーを押すと、文字認識したテキストをコンソールに出力します。

# -*- coding: utf-8 -*-

#*********************************************************************
# ocr_test1.py
#*********************************************************************
import cv2
import sys
import os
import pyocr
import pyocr.builders
from PIL import Image

# 使用可能なOCRモデルをリストに格納
tools = pyocr.get_available_tools()

# 使用可能なOCRモデルが格納されているリストから取得
tool = tools[0]

# カメラ画像取得（カメラ番号に注意）
cap = cv2.VideoCapture(0)       # カメラの接続は1台なので0番

while(True):
    # 取得
    ret, img = cap.read()

    # キャプチャー取得できた場合
    if ret == True:
        # カメラ画像を表示
        cv2.imshow('Image', img)            # 「Image」というウインドウ名で表示

    # キャプチャーエラーの場合
    else:
        print("error")      # コンソールに「error」と表示

    # wait
    k = cv2.waitKey(30) & 0xFF            # 30msサイクル

    # Escキーで終了
    if k == 27:
        case = 0
        break

    # cキーが押されたら処理へ
    if k == ord('c'):
        case = 1        # 認識処理へ
        break
              
# 認識処理
if case == 1:
	# 画像からテキストを取得
	txt = tool.image_to_string(         
		Image.fromarray(img),                                       # 画像
		lang="eng",                                                 # english対応
		builder=pyocr.builders.TextBuilder(tesseract_layout=6)      # 6 = Assume a single uniform block of text.
	)

	# コンソールに認識したテキストを出力
	print(txt)       

# 解放       
cap.release()
cv2.destroyAllWindows()

取得したカメラ画像です。認識したい識別番号は「TCS-C0-278」です。

実行し、コンソールに出力されたテキストを見てみます。

「TCS-C0-278」が出力されており、認識できています。

(2)検出したい文字列を検索する

画像からテキストを出力できたので、検出したい文字列を検索し判定するようにします。
検出したい文字列と完全一致であれば”[–OK–]”を、そうでなければ”[–NG–]”をコンソールに出します。
コマンド引数に判定したい文字を設定します。

# -*- coding: utf-8 -*-

#*********************************************************************
# ocr_test2.py
#*********************************************************************
import cv2
import sys
import os
import pyocr
import pyocr.builders
from PIL import Image

# ★コマンドライン引数
args = sys.argv

# ★コマンドの引数から取得
judg_text = str(args[1])         # 判定文字

# 使用可能なOCRモデルをリストに格納
tools = pyocr.get_available_tools()

# 使用可能なOCRモデルが格納されているリストから取得
tool = tools[0]

# カメラ画像取得（カメラ番号に注意）
cap = cv2.VideoCapture(0)       # カメラの接続は1台なので0番

while(True):
    # 取得
    ret, img = cap.read()

    # キャプチャー取得できた場合
    if ret == True:
        # カメラ画像を表示
        cv2.imshow('Image', img)            # 「Image」というウインドウ名で表示

    # キャプチャーエラーの場合
    else:
        print("error")      # コンソールに「error」と表示

    # wait
    k = cv2.waitKey(30) & 0xFF            # 30msサイクル

    # Escキーで終了
    if k == 27:
        case = 0
        break

    # cキーが押されたら処理へ
    if k == ord('c'):
        case = 1        # 認識処理へ
        break
        
# 認識処理
if case == 1:
	# 画像からテキストを取得
	txt = tool.image_to_string(         
		Image.fromarray(img),                                       # 画像
		lang="eng",                                                 # english対応
		builder=pyocr.builders.TextBuilder(tesseract_layout=6)      # 6 = Assume a single uniform block of text.
	)

	# コンソールに認識したテキストを出力
	print(txt)
    
    # ★判定
    if(judg_text in txt):       # 認識したテキストの中から判定文字があった場合
	    print("[--OK--]")       # コンソールに「[--OK--]」を表示
    else:                       # 見つからない場合
	    print("[--NG--]")       # コンソールに「[--NG--]」を表示

# 解放       
cap.release()
cv2.destroyAllWindows()

先ほどのカードを判定してみます。