OCR(文字認識)とは?紙の文書をデータ化して編集・検索を可能に
オフィスのペーパーレス化に欠かせない技術のひとつ「OCR(Optical Character Recognition:光学文字認識)」が、いま再び注目されています。
OCR技術により、画像から文字を抽出することができます。
紙の書類にしかない情報も、スキャンしてOCRをかけると簡単にデジタル化できます。書類をデータ化できれば、いろいろな業務の効率化につながりますよね。
今回の記事では、OCRでできることから、OCR精度(文字認識率)を向上させるテクニックまでを解説します!
目次
1. OCRとは? 紙に印字されている文字をテキストデータ化する技術
「紙の書類」は、スキャンするだけでもデジタルデータにはなりますが、単純にスキャンしただけの書類は「画像」として読み込まれます。このままでは写真と同じで、書類の内容を知るには、1枚ずつ人間の目で見て確認するしかありません。
OCRとは、画像の中から文字を見つけ出して、文字データに変換する技術です。
書類をスキャンした後にOCR処理をすることで、(画像として保存された)書類の中にあるテキスト部分を数字や文字として読み込むことが可能になります。
読み込まれたテキストは、はじめからパソコンで入力した文字と同じように、コピー&ペーストしたり、検索をかけたりできるようになります。
OCR技術は、郵便番号や銀行の振込用紙の読み取りなど、身近なところにも使用されています。
2. OCRを活用するメリットとは
OCRを使うと、紙の情報をデジタルデータとして扱えるようになり、活用の幅がぐっと広がります。具体的なメリットをみていきましょう。
情報を「速く」「簡単に」検索できるようになる!
オフィスにある「紙の書類」をテキストデータに変換することで、パソコン上で検索をかけられるようになります。書類を1枚ずつ読みながら確認するよりも、はるかに効率よく情報を探すことができます。
さらに、ファイルをサーバーに格納し、関係者で共有しておくことで、テレワーク中にも自宅から書類の内容を確認できます。
テレワークのために書類を持ち帰っておく必要もなくなります。これなら、災害時などにも柔軟に在宅勤務に切り替えられますね。
紙の資料を編集・更新可能なデータにできる!
「いまある資料を修正したいが、データがない。少し修正したいだけなのに...。」
元データがなくて困ったときは、スキャンしてOCRをかけることで編集可能なデータに変換できます。
古い資料の修正だけでなく、「(紙しかない)この資料のココと、あの資料のココをいい感じに編集して、新しくプレゼン資料を作りたい!」なんていうときにも、OCRを使うと便利です。
「紙を見ながら人手で入力」が不要!
たとえば名刺について、お客様や取引先の連絡先情報など、名刺を見ながら人手で転記したりしていませんか?
紙を見ながら人手で入力、転記していく作業があるなら、OCRの出番です。OCRで読み取り、一気にテキスト化してしまいましょう。
あとは間違いがないかを確認し、使いたい形に自由に加工していきます。人間にしかできない、本当に価値のある仕事に、より多くの時間を使うことができます。
3. ScanSnapによるOCRの活用
ScanSnapでOCRを活用した機能を紹介します。
検索可能なPDFに変換
スキャナーで読み込んだPDFは通常は画像データですが、OCRをかけると、PDF内で全文検索が可能なPDFファイルに変換されます。
これにより、大量の資料の中からキーワード検索で、必要な箇所を一瞬で見つけ出せるようになります。また、読み取った文字は、入力した文字と同じようにテキストとしてコピー&ペーストすることも可能です。
ScanSnapなら、紙文書をスキャンするだけで検索可能なPDFに変換できます。(スキャン設定で「検索可能なPDF」オプションをオンにしておきます。)
Word/Excel/PowerPoint®変換
紙の資料をスキャンしてOCR機能を使うことで、Word/Excel/PowerPoint®データに変換することができます。イチからデータを作り直すよりも手間も時間も節約できます。
ScanSnapなら、スキャンした後に「アプリケーション連携」から変換したいデータ種別を選択するだけで、紙文書を編集可能なデータに変換できます。
名刺のデータベース化
名刺もスキャンするだけで、氏名や会社名、メールアドレスを認識し、データベース化できます。
連絡を取りたいときに、サッと名刺を探し出せることはもちろん、名刺に書かれたメールアドレス、Webサイト、住所情報にも、ワンクリックでアクセスできます(ScanSnap Homeで名刺の右上に表示されるアイコンをクリックしてみてください!)
また、イベントなどで集めた大量の名刺をスキャンし、.csvなどのファイルに出力して、簡単に住所録を作ることもできます。
4. ScanSnapでOCR精度を向上させるテクニック!
スキャンする原稿や条件によっては文字認識率が低くなってしまう場合がありますが、そんなときにも読み取り時の文字認識率を上げる方法があります。
文字認識がうまくいかないときは、以下の方法を試してみましょう。
- カラー原稿は「白黒」でスキャンする
- 200~300dpi(「ファイン」「スーパーファイン」)の高い解像度でスキャンする
ScanSnap Homeでは、スキャン設定の「カラーモード」、「画質」で設定を変更できます。
- 裏写りを軽減する(新聞や雑誌など、薄い紙や裏写りしやすい原稿の場合)
- コントラストを強調する
- 傾きを補正する
ScanSnap Homeでは、スキャン設定の「詳細設定」、「オプション」の画面で設定を変更できます。
5. まとめ
OCRはスキャンした画像の中にあるテキストを認識し文字データに変換する技術です。
名刺・領収書・書類など、印刷されたものを「文字」としてパソコンに取り込みます。読み取った文字は、入力した文字と同じようにテキストとしてコピー&ペーストすることも可能です。もちろん、テキストデータなので、キーワードでの検索も簡単です。
「WordやExcelで使いたい印刷物がある」なんていうときも、とっても便利ですね。認識率を上げるテクニックを参考に、OCRを活用し仕事の効率化につなげてみてはいかがでしょうか
ScanSnap iX1600
毎分40枚・80面の両面高速読み取りを実現し、簡単操作のタッチパネルを搭載。Wi-Fiの5GHzに対応し、原稿サイズ、色や両面・片面を自動的に判別。 驚くほど簡単、スピーディーに電子化します。 |
---|
この記事を書いた人
おすすめ記事
ScanSnapのOCR機能で「点訳」を大幅に効率化
出版物や書類などの文章を点字に翻訳する「点訳」の分野で、ScanSnapが新しい可能性を開きつつあります。OCR機能によって「検索可能なPDF」を生成してテキストデータを抽出することにより、点訳に要す
OCRの有無がポイント。エキスパートがたどりついたたったふたつのプロファイル 成蹊大学法学部教授 塩澤一洋先生
法律を研究する大学教授ながら、ScanSnapのアンバサダーもつとめる塩澤一洋さん。最新モデルのScanSnap iX1500は多機能化しているが、それでもシンプルに活用していくのがポイントだと塩澤さ
写真や画像から文字読み取り!OCR機能がある無料アプリ6選
OCR(Optical Character Recognition/Reader)とは、写真や画像から文字を読み取り、テキストとしてデジタルデータ化する(光学文字認識)技術です。 OCR機能のあるアプ
ワンタッチで簡単!!年賀状から始めるデジタル整理スタイル2019
毎年、お正月に届く年賀状。その整理はどのようにしていますか?届くとうれしい年賀状の簡単で便利な整理術をお届けします。さらに、届いた後の意外な活用方法にも触れていきますよ。