デジタル整理スタイル | スマートな整理術を紹介するメディア

OCR(文字認識)するときに注意したい
ポイント!
OCR(文字認識)するときに
注意したいポイント!

OCR(文字認識)するときに注意したいポイント!

書類をスキャンすると通常は「画像」として保存されます。たくさんの書類をスキャンした後に、読みたい箇所を探すのはとても疲れますよね。そこで大活躍するのが画像から文字を抽出する技術「OCR(Optical Character Recognition:光学文字認識)」なんです!


今回の記事では、OCRの仕組みや文字認識率を上げるテクニック、OCRの応用方法についてご紹介します。

OCR(Optical Character Recognition:光学文字認識)とは

OCR(Optical Character Recognition:光学文字認識)とは

OCRとは画像の中から文字を見つけ出して、文字データに変換する技術です。
単純にスキャンした場合、書類などは画像として読み込まれます。でも、OCR処理をすることで画像の中にあるテキスト部分を数字や文字として読み込むことが可能になります。読み込まれたテキストは、パソコンに入力した文字と同じようにコピー&ペーストしたり、検索をかけることができます。郵便番号や銀行の振込用紙の読み取りなど、身近な所にもOCR技術が使用されています。

どこまでOCRできるのか?認識しにくいものは何か?

文字データ化できるといっても、100%正確に文字認識されるわけではありません。認識しにくいのはどのようなものなのでしょうか。具体的に見ていきましょう。


・カラー文字や文字のかすれ

カラー文字や文字のかすれ

・原稿が斜めになっている

原稿が斜めになっている

・日本語に混在した欧文文字など、文字間隔が詰まっている

文字間隔が詰まっている

・特殊文字「㎡」「①」など

特殊文字

・網掛けされている文字や背景とのコントラストが低い文字


・縦書き横書きが混在している原稿


・手書きの文字(一般的なOCRソフトは手書きOCRに対応していません)


認識率を上げるテクニック

文字認識率は原稿や条件によっては低くなってしまいます。しかし、読み取り時の文字認識率を上げる方法もあるんです。文字認識がうまくいかなかったら、以下の方法を試してみましょう。


・200~300dpi(ファイン~スーパーファイン)の高い解像度でスキャンする

・カラー原稿は白黒でスキャンする

・コントラストを強調する

・傾きを補正する

・裏写りを軽減する(新聞や雑誌など薄い紙や裏写りしやすい原稿)

認識率を上げるテクニック
認識率を上げるテクニック

ScanSnapでは、読み取り設定の「読み取りモード」「読み取りモードオプション」の画面で設定を変更できます。

OCRの応用方法

OCRを使えば、紙の情報をデジタルデータとして扱えるようになり、活用の幅がぐっと広がります。



検索可能なPDFに変換

スキャナーで読み込んだPDFは通常は画像データですが、OCRをかけると、PDF内で全文検索が可能なPDFファイルに変換されます。これにより、大量の資料の中からキーワードで必要な箇所を一瞬で見つけ出せるようになります。また、読み取った文字は、入力した文字と同じようにテキストとしてコピー&ペーストすることも可能です。


検索可能なPDFに変換

Word/Excel/PowerPoint®変換

紙でしか持っていない書類を修正したいとき、元データが見つからず困ったことはありませんか?
OCRを使えば、紙をスキャンしてWord/Excel/PowerPoint®データへ変換することができます。イチからデータを作り直すよりも手間も時間も節約できます。

Word/Excel/PowerPoint変換

名刺のデータベース化

名刺も「CardMinder」などの名刺管理ソフトでOCRをかけると、氏名や会社名、メールアドレスを認識しデータベース化することができます。連絡を取りたいときに、サッと名刺を探し出せることはもちろん、名刺に書かれたメールアドレスにすぐにメールを送ることができます。イベントなどで集めた大量の名刺から住所録を作りたいときにも便利です。


名刺のデータベース化

ScanSnapに標準添付される名刺管理ソフト「CardMinder」の画面。左上アイコンからメール送信やホームページ表示ができる。

まとめ

OCRはスキャンした画像の中にあるテキストを認識し文字データに変換する技術です。名刺・領収書・書類など、印刷されたものを「文字」としてパソコンに取り込みます。読み取った文字は、入力した文字と同じようにテキストとしてコピー&ペーストすることも可能です。もちろん、テキストデータなので、キーワードでの検索も簡単です。


「WordやExcelで使いたい印刷物がある」なんていうときも、とっても便利ですね。認識率を上げるテクニックを参考に、OCRを活用し仕事の効率化につなげてみてはいかがでしょうか。


 

ScanSnap iX1500

毎分30枚・60面の両面高速読み取りを実現。原稿サイズ、色や両面・片面を自動的に判別し、驚くほど簡単、スピーディーに電子化します。


※ 記事中の「ScanSnap iX500」の後継モデルです。


 

ScanSnap iX100

バッテリー・Wi-Fiを搭載しながら、わずか400gのコンパクトボディ。場所を選ばず原稿を電子化でき、手軽に情報の保管や共有が可能。