1~2万円で店頭で販売されているOCRや、スキャナや複合機にバンドルされているOCRは、
活字読取用の簡易版が多いようで、業務用として使用するには十分ではありません。
弊社ではPC上で稼動する高性能ソフトOCRを認識エンジンとして利用します。
【認識率】 手書き文字 93%、手書き数字 99.5%
手書き文字の認識率とは、多くの人々が記入した様々な文字サンプルを正しく読み取ることができた割合です。
文字の認識率は書き方の他にも明るさやコントラストなどスキャナやFAXの画像取込み設定によっても違ってきますが、
現在のOCR認識技術は、上手な文字でなくても、崩したり、略したりせずに書くことにより、
正確に読み取ることが可能で業務で支障なく使えるレベルに達しています。
※青字で表示されている部分がOCR認識結果です。
<手書き文字認識例>
<手書き数字認識例>
認識速度
たとえば下記のような書式(全部で920文字あります)を読み込ませた場合、認識にかかる時間は
たった1.9秒です。
これを
人間が打つとベテランパンチャーでさえ180秒以上かかってしまいます。
OCRは普通の用紙に読取り枠を設計して作れますので、自由度も高く、書式はコピーして使うことも可能です。
また、クロック速度の速いCPUやメモリーを増大させるとさらに処理時間が短くすることも可能です。
テスト条件 |
使用書式 |
数字 720文字
文字 100文字
マークチェック 100ヶ所 合計 920文字分 |
使用PC |
DELL Dimension 2200
メモリー 256MB
Intel Celeron 1.3GH
Windows XP |
認識速度 |
1.9秒 |
活字認識と手書き文字認識
OCRエンジンには活字認識用と手書き文字認識用の2種類があります。
また、二つのエンジンを組み合わせた ハイブリットタイプもあります。
ここでは業務で使うことの多い手書き用OCRについて説明します。
用紙サイズ
・A6~A3サイズ(縦、横どちらも可)
ただし、スキャナの最大読取寸法との兼合いに留意する必要があります。
用紙レイアウト設計
・OCR認識は罫線枠で判断されます。
用紙上に設計した罫線枠を、事前にOCRソフトに登録し、文字の認識を行います。
・基本的に1文字1マスで設計します。(ゴム印で記載する読取マス枠などの例外もあります。)
マス枠の設計にはいくつかルールがあり、それらの条件を満たしていないと認識精度に影響します。
・OCR処理する書式は全て登録する必要があります。
取引先指定伝票が数十種あり、どれでも読ませたいというようなリクエストもありますが、各書式の登録と連動するプログラムが必要になりますので、
数十種に及ぶ相手先書式対応型でOCRを導入されたユーザーはまだありません。(ちなみに、最低でも1書式数十万円は必要です。)
・罫線枠のカラー化、地色の網がけやカラーマスクについてなどはご相談下さい。
対応できるものとそうでないものがあります。
読み取り可能文字
・個々のOCRエンジンにより若干異なりますが、英数カナ漢字と一部の記号に対応します。
英大文字
数字
カタカナ
ひらがな
漢字
記号 |
26種
11種
87種
84種
3487種
23種 |
(JIS第1水準と第2水準の1部)
|