2020.6.3 |
OCRの文字認識精度を向上させるには?

今、OCRの精度が飛躍的に進歩しています。また、AIが導入されたことにより認識できる種類や範囲が拡大しています。例えば、従来では難しかった「フリーピッチ手書き文字」も、近年では読み取り可能になっています。今回は、文字認識の精度を向上させる機能を利用して、認識精度を向上させるポイントを紹介していきます。
1. 文字認識の精度を向上させる機能とは?
OCRソフトは、文字認識の精度を向上させる多様な機能を持っています。
1-1. 画像処理技術
OCRでは、認識されにくい文字が存在します。例えば、カラー文字や文字がかすれているもの、文字間隔が狭いもの、特殊文字などです。また、OCRは、傾いている文字や網掛け文字の認識が苦手です。これらは画像処理技術を使って、精度を向上させる仕組みが用意されています。
1-2. 辞書・マスターデータとの照合
例えば、住所は郵便番号から途中まで判断できます。すべての文字を認識しなくても、関連する項目から文字を類推できる場合、この関係性を使うことで読み取り精度を向上させる仕組みが用意されています。
2. 画像処理で精度を上げる
最新の画像処理技術を使うと、自動でOCR読み取りの精度を向上させる画像にすることができますが、ここでは画像処理技術を使わずに、OCRの精度をさらに向上させるいくつかの方法を紹介していきます。
2-1. 画像の鮮明度を上げる
原稿を読み込む際の解像度を上げてみましょう。高い解像度でスキャンすることで、文字の認識率が高まります。
また、認識されにくい文字を避けるために、白黒でスキャンすることでカラー文字の対策ができます。さらに、薄い原稿の場合には、裏映りを軽減するために白紙を重ねてスキャンするなどの対策をとることで、文字の認識が向上しやすくなるはずです。

2-2. 傾きや網掛け文字に対応する
読み込む原稿の置き方にも注意してみましょう。文字が斜めにならないようにスキャンの向きに合わせて原稿を真っすぐ置きます。1枚1枚傾きを手で調整しながらスキャンするのは大変な作業なので、傾き補正をしてくれる機能がついたスキャナーを利用するのがいいでしょう。まとめて書類をスキャンしても、1枚ずつ傾きを自動で補正してくれるのでとても便利です。
また、網掛け部分の文字の認識も可能にしてくれる、高スペックのスキャナーも登場しています。認識できない部分だけを手動修正するのも良いですが、自動で補正してくれるスキャナーを1台取り入れるだけで劇的に効率が良くなるでしょう。

3. 出力結果をマスターデータと比較して精度を上げる
マスターデータとの連携にはどのようなものがあるか紹介します。OCRソフトではこれらと連携して精度を上げる仕組みが用意されているものがありますが、提供されていない場合は、RPAやプログラムを作成して作り上げることもできます。
3-1. 住所は、郵便番号を参考にする
住所をOCRで読み取りする場合には、郵便番号を参考にする方法があります。住所の文字列そのものを認識するより、郵便番号を認識するほうが、数字のみの認識となるので認識率が高くなります。郵便番号から住所のマスターデータを参照することで、結果として認識率が向上します。

3-2. 名前は、よみがなと漢字を参考にする
名刺や個人情報の読み込みなどに記載されている名前は、「よみがな」と「漢字」のマスターデータと比較しましょう。日本人の名前を読み取った場合、漢字表記だけでなく、よみがな表記もされていることがほとんど。フリーピッチの手書き文字の認識ができる高性能なOCRソフトも登場していますが、珍しい名前などもあるので、「よみがな」「漢字」両方と比較した方が良いでしょう。

3-3. 納品書などは、商品マスターを参考にする
卸売業者や小売業者など、商品の販売がメインの企業では、納品書関係の書類が多くあります。この場合には、商品マスターとOCRの読み取り結果を比較しましょう。数字の読み込みが得意なOCRソフトですが、手書きの納品書や形式が異なる納品書は正しく認識されない場合があります。商品マスターと比較することで、個数や金額などの数値関係だけでなく、商品と型番のズレなどもスムーズに確認、修正することが可能です。

4. まとめ
今OCRの精度はAIなどの最新技術導入により、確実に向上していますが、さらに精度を向上させる仕組みがOCRソフトで用意されています。今回はその仕組みを参考に、OCRの認識精度を向上させるポイントを紹介しました。PFUではより多くの経験から認識精度向上のノウハウを持っており、さらなる認識精度の向上を支援します。多くの業界・業種の企業様に導入いただき、実績も豊富です。ぜひお問い合わせください。