OCR(文字認識)とは?紙の文書をデータ化して編集・検索を可能に

 
facebook ツイート LINE
OCR(文字認識)とは?紙の文書をデータ化して編集・検索を可能に

OCR(文字認識)とは?紙の文書をデータ化して編集・検索を可能に OCR(文字認識)とは?紙の文書をデータ化して編集・検索を可能に

更新日2021.11.29


オフィスのペーパーレス化に欠かせない技術のひとつ「OCR(Optical Character Recognition:光学文字認識)」が、いま再び注目されています。


OCR技術により、画像から文字を抽出することができます。
紙の書類にしかない情報も、スキャンしてOCRをかけると簡単にデジタル化できます。書類をデータ化できれば、いろいろな業務の効率化につながりますよね。


今回の記事では、OCRでできることから、OCR精度(文字認識率)を向上させるテクニックまでを解説します!


目次


  1. 1. OCRとは? 紙に印字されている文字をテキストデータ化する技術
  2. 2. OCRを活用するメリットとは
  3. 3. ScanSnapによるOCRの活用
  4. 4. ScanSnapでOCR精度を向上させるテクニック!

スキャナー製品情報|スキャナーならScanSnap

left

1. OCRとは? 紙に印字されている文字をテキストデータ化する技術
1. OCRとは?紙に印字されている文字をテキストデータ化する技術

OCR 画像内文字 テキストデータに変換

「紙の書類」は、スキャンするだけでもデジタルデータにはなりますが、単純にスキャンしただけの書類は「画像」として読み込まれます。このままでは写真と同じで、書類の内容を知るには、1枚ずつ人間の目で見て確認するしかありません。


OCRとは、画像の中から文字を見つけ出して、文字データに変換する技術です。


書類をスキャンした後にOCR処理をすることで、(画像として保存された)書類の中にあるテキスト部分を数字や文字として読み込むことが可能になります。


読み込まれたテキストは、はじめからパソコンで入力した文字と同じように、コピー&ペーストしたり、検索をかけたりできるようになります。


OCR技術は、郵便番号や銀行の振込用紙の読み取りなど、身近なところにも使用されています。



left

2. OCRを活用するメリットとは 2. OCRを活用するメリットとは

OCRを使うと、紙の情報をデジタルデータとして扱えるようになり、活用の幅がぐっと広がります。具体的なメリットをみていきましょう。


情報を「速く」「簡単に」検索できるようになる!

OCR 画像内文字 テキスト検索可能に

オフィスにある「紙の書類」をテキストデータに変換することで、パソコン上で検索をかけられるようになります。書類を1枚ずつ読みながら確認するよりも、はるかに効率よく情報を探すことができます。


さらに、ファイルをサーバーに格納し、関係者で共有しておくことで、テレワーク中にも自宅から書類の内容を確認できます。


テレワークのために書類を持ち帰っておく必要もなくなります。これなら、災害時などにも柔軟に在宅勤務に切り替えられますね。


紙の資料を編集・更新可能なデータにできる!

OCR 画像内文字 編集可能に

「いまある資料を修正したいが、データがない。少し修正したいだけなのに…。」


元データがなくて困ったときは、スキャンしてOCRをかけることで編集可能なデータに変換できます。


古い資料の修正だけでなく、「(紙しかない)この資料のココと、あの資料のココをいい感じに編集して、新しくプレゼン資料を作りたい!」なんていうときにも、OCRを使うと便利です。


「紙を見ながら人手で入力」が不要!

OCRでテキスト化 人手の入力が不要

たとえば名刺について、お客様や取引先の連絡先情報など、名刺を見ながら人手で転記したりしていませんか?


紙を見ながら人手で入力、転記していく作業があるなら、OCRの出番です。OCRで読み取り、一気にテキスト化してしまいましょう。


あとは間違いがないかを確認し、使いたい形に自由に加工していきます。人間にしかできない、本当に価値のある仕事に、より多くの時間を使うことができます。



left

3. ScanSnapによるOCRの活用 3. ScanSnapによるOCRの活用


ScanSnapでOCRを活用した機能を紹介します。


検索可能なPDFに変換

スキャナーで読み込んだPDFは通常は画像データですが、OCRをかけると、PDF内で全文検索が可能なPDFファイルに変換されます。


これにより、大量の資料の中からキーワード検索で、必要な箇所を一瞬で見つけ出せるようになります。また、読み取った文字は、入力した文字と同じようにテキストとしてコピー&ペーストすることも可能です。


ScanSnapなら、紙文書をスキャンするだけで検索可能なPDFに変換できます。(スキャン設定で「検索可能なPDF」オプションをオンにしておきます。)


ScanSnap スキャンするだけで検索可能なPDF

Word/Excel/PowerPoint®変換

紙の資料をスキャンしてOCR機能を使うことで、Word/Excel/PowerPoint®データに変換することができます。イチからデータを作り直すよりも手間も時間も節約できます。


ScanSnapなら、スキャンした後に「アプリケーション連携」から変換したいデータ種別を選択するだけで、紙文書を編集可能なデータに変換できます。


ScanSnap 紙文書をオフィスデータに変換

名刺のデータベース化

名刺もスキャンするだけで、氏名や会社名、メールアドレスを認識し、データベース化できます。


連絡を取りたいときに、サッと名刺を探し出せることはもちろん、名刺に書かれたメールアドレス、Webサイト、住所情報にも、ワンクリックでアクセスできます(ScanSnap Homeで名刺の右上に表示されるアイコンをクリックしてみてください!)


また、イベントなどで集めた大量の名刺をスキャンし、.csvなどのファイルに出力して、簡単に住所録を作ることもできます。


ScanSnap 名刺 テキスト化

left

4. ScanSnapでOCR精度を向上させるテクニック! 4. ScanSnapでOCR精度を向上させるテクニック!

スキャンする原稿や条件によっては文字認識率が低くなってしまう場合がありますが、そんなときにも読み取り時の文字認識率を上げる方法があります。


文字認識がうまくいかないときは、以下の方法を試してみましょう。


① カラー原稿は「白黒」でスキャンする


② 200~300dpi(「ファイン」「スーパーファイン」)の高い解像度でスキャンする


ScanSnap Homeでは、スキャン設定の「カラーモード」、「画質」で設定を変更できます。


ScanSnap カラーモード 画質

③ 裏写りを軽減する(新聞や雑誌など、薄い紙や裏写りしやすい原稿の場合)


④ コントラストを強調する


⑤ 傾きを補正する


ScanSnap Homeでは、スキャン設定の「詳細設定」、「オプション」の画面で設定を変更できます。


ScanSnap スキャンオプション



left

5. まとめ 5. まとめ

OCRはスキャンした画像の中にあるテキストを認識し文字データに変換する技術です。


名刺・領収書・書類など、印刷されたものを「文字」としてパソコンに取り込みます。読み取った文字は、入力した文字と同じようにテキストとしてコピー&ペーストすることも可能です。もちろん、テキストデータなので、キーワードでの検索も簡単です。


「WordやExcelで使いたい印刷物がある」なんていうときも、とっても便利ですね。認識率を上げるテクニックを参考に、OCRを活用し仕事の効率化につなげてみてはいかがでしょうか




 

ScanSnap iX1600

毎分40枚・80面の両面高速読み取りを実現し、簡単操作のタッチパネルを搭載。Wi-Fiの5GHzに対応し、原稿サイズ、色や両面・片面を自動的に判別。 驚くほど簡単、スピーディーに電子化します。


※ 著作権の対象となっている新聞、雑誌、書籍等の著作物は、個人的または家庭内、その他これらに準ずる限られた範囲内で使用することを目的とする場合を除き、権利者に無断でスキャンすることは法律で禁じられています。また、スキャンして取り込んだデータは、私的使用の範囲でしかご使用になれません。