【スマートものづくりエキスパート育成スクール取組】(8)画像フォーマットによる比較

文字認識 OCR python 画像フォーマット jpg png bmp

はじめに

前回の記事 【スマートものづくりエキスパート育成スクール取組】(7)処理時間の検討 より、取得した画像から文字認識を行い、文字列を取得するまでの処理時間を短縮する検討を行い、約15秒かかっていたところを3秒以下に短縮することができました。

次にスコアを上げる方法を検討していきます。
今回は、画像フォーマット形式によりスコアに違いがあるのか検証を行います。

画像フォーマット

画像ファイルを保存するフォーマットによってファイルのサイズや画質が変わります。
これは保存するときの圧縮方式によるもので、「非可逆圧縮」「可逆圧縮」「非圧縮」の3種類あります。


・「非可逆圧縮」

 画像データを高い圧縮率で保存します。
 大きなファイルサイズを小さくすることができます。
 画質は元画像データに比べて悪くなります。
 一度データを圧縮すると元に戻すことができません。

・「可逆圧縮」

 画像データを圧縮して保存します。
 ファイルサイズを小さくすることができますが、非可逆圧縮方式よりも圧縮率は低くなります。
 データを圧縮しても元に戻すことができます。

・「非圧縮」

 画像データを圧縮せずに保存します。
 ファイルサイズは大きくなります。
 圧縮しないため画質の低下はありません。

検証

今回は生データ、”jpg”、”png”、”bmp”フォーマットで検討を行います。



(1)生データ

 カメラから取得したままの画像を使用します。



(2)”jpg”フォーマット

 「非可逆圧縮」方式です。
 主に静止画像データを圧縮する際に用いられ、フルカラーで表現することができるため
 写真等の色数の多いものに適したファイル形式です。


(3)”png”フォーマット

 「可逆圧縮」方式です。
 主にwebページで画像を表示する際に使用されています。
 背景の透過ができ、何度加工しても画質が劣化しないのが特徴です。


(4)”bmp”フォーマット

 「非圧縮」方式です。
 解像度の高い画像が必要なときに使用されます。


解像度が高い”bmp”フォーマットが1番スコアがよくなると予測します。

画像フォーマットは、【スマートものづくりエキスパート育成スクール取組】(3)カメラ画像を取得 で紹介した方法を利用して取得します。

結果

識別番号が異なる44枚のカードに対して実験を行いました。

“jpg”フォーマットが若干良い結果になりましたが、大きな差はありませんでした。

文字認識 OCR python ラズパイ 画像フォーマット jpg png bmp

まとめ

文字認識のスコアを上げる方法として、画像フォーマットによる違いがあるのか考え、カメラから取得したままの生データ、”jpg”、”png”、”bmp”フォーマットで検証を行いました。

画像を保存する際に圧縮をしない”bmp”フォーマットは他のフォーマットよりも解像度が高いため、スコアが1番良くなると予測していましたが、”jpg”フォーマットが若干ですが良い結果となりました。

各フォーマットでスコアに大きな差が見られなかったことから、
実際に工程に投入した際、画像の変換時間を考慮して生データのまま使用することにします。


次回は、画像処理を行って検証したいと思います。

よかったらシェアしてね!