play mac

OCR利用のすすめ

 ゲームソフトは別として、実務に役立つようなアプリケーションソフトを使う場合に一番手間ひまがかかるのが、キーボードからのデータ入力です。ハイパーカードで住所録を作るにしても、エクセルで学生の成績表を作るにしても、とにかく人力に頼らざるを得ません。一旦データを入力してしまえば、検索や分析はコンピュータのお陰で、素早く処理できるのですが、その素早さの所為で、なお一層、データ入力の面倒さが際立つという皮肉な現実があります。

 自分のオリジナルのデータを入力するのなら、まだ我慢もできますが、新聞記事や本のある一部や特定のチャプター全体をデータとしてパソコン内に取り込んでおきたいというときは、キーボードに向かって入力していると、ついつい、コナンドイルの「赤毛クラブ」を思い出し、うんざりさせられます。

 こんな時に役に立つのが、OCRソフトであります。OCRは Optical Character Reader の頭字語で、新聞記事などの文字情報をコピー機の要領で読みとり、それを解析して、テキストデータに変換して、ワープロソフトで処理できるデータとしてくれるソフトもしくはそういう行為自体のことを言います。

 OCRを行うには、パソコンとOCRソフトの他に、コピー機を平べったくしたような形状の「スキャナー」と呼ばれる周辺機が必要です。平均的なパソコンユーザー用のものなら、¥52,500〜¥84,200ぐらいの見当で入手できます。ヒュウレット・パッカードの ScanJet 4 などがこの範囲に入り、十分実用に耐えます。

 次に、ソフトですが、英文用のOCRとしてはOmniPage Pro 6.0 (¥71,100) が老舗で定番というとこでしょう。スペルチェック機能も合わせ持っていますから、ほぼ100パーセントに近い識字率で印刷物の英文をワープロデータとして取り込むことができます。印刷物のページがスキャナーの読みとり面に対して少々斜めになって置かれていても、自動的に補正してデータ変換してくれる優れものです。但し、日本代理店がこの商品を扱うようになってから、アップグレード代金が割高に設定されるようになったのが玉に瑕。

 邦文用の OCR で筆者が最近購入したのはMacReader Pro 3.0 (¥132,000) ですが、日本語のデータをあまり必要としない職業柄、まだそんなに使っていないので、正確な論評はできません。新聞の活字程度の大きさの文字でも識字率が高いのには感動。ただし、マックらしからぬインターフェースのために操作画面の意味が分かり辛く、テキスト変換した後の編集作業がやりづらいのと、英語日本語混成文書の解析を売りにしているにも関わらず、英文の識字率が極めて低いことには一寸ガックリ。英語の場合は大文字と小文字を合わせても50文字少々だけど、邦文の場合は、複雑な字形を持つ漢字を、教育漢字と常用漢字だけでも、約2,000弱、解析しなければならないのだから、邦文用 OCR はまだまだ発展途上と言うところでしょうか?

 閑話休題。漢字トークのバージョンが 7.5.3 になり、システムが大変安定し爆弾を落とされる回数が極めて少なくなりました。旧バージョンの抱えていたチョンボも大幅に手直しされたようです。特に、Power PC をお使いの皆さんは是非アップグレードしてください。ネーティブ化された部分が多く、スピードアップが著しく、とても使い勝手がいいですよ。今月号「マックパワー」の付録についている CD-ROM でアップグレードできます。             

(平木多聞)