OCRソフトを使わなくなってしまった理由

  1. スキャンする時に明るさと角度に細心の注意を払う必要があること。これを怠ると認識率が大きく下がり、修正に時間がかかる。また、再スキャンにも時間がかかる。
  2. 認識率を上げるには、新聞紙面の文字の場合400dpi程度のスキャンが必要であること。
  3. どこを認識させるか、指定する必要があること。これをしないと、あまりにも文章が長くなりすぎ、結局検索の際、マッチするドキュメントが多くなり、絞り込みに苦労するようになってしまう。
  4. 例えば名刺の場合、「ビジネスショウ97来場者」とか「山田さんの紹介」とか「大口ユーザー」とか「名刺」とか、名刺の紙面上には無い言葉をキーワードとして登録しておくと後で結構役に立つ。つまり、認識した文字以外の情報をキーワードにする必要があり、結局キーボードを使用せざるを得ない。
  5. 似ている文字に誤認識(例えば「堀」と「掘」など)されると後で見つけられなくなってしまう。

余談です。「超」ファイリングシステム以外の多くのファイリングシステムがOCRソフトの連動や内蔵を宣伝文句に使用していますが、新聞を実用になる程度に認識するには、400dpiでスキャンする必要があります。ところが400dpiでスキャンすると、ほとんどのソフトが、実用的ではなくなるほどスピードが遅くなるか、データ量が大きくなるか、あるいはその両方です。この辺について、常々変だなと感じています。