Ver.4.0では、表原稿の数字データのOCR処理は、問題のないレベルに到達していたため、今回は、 罫線と文字が接触している部分の認識; 表原稿の再現性強化. 最近、AI OCRという言葉をニュースで耳にしたりGoogleがOCRサービスを提供したりと、にわかにOCR業界が盛り上がっています。, しかし、OCRって何?どう有益なの?と、企業向けのOCRに関する情報が少なすぎて良くわからないですよね。, 例えば、書類や冊子をテキストデータ化したいとき、OCR処理に向いていないものもあります。, 逆に、OCRの方が良いのにデータ入力してテキストを作成してしまったりするかもしれません。, そこで、職場でのOCR処理や業者に委託する際の参考にしてみてもらうべく、業界10年以上の私が持ちうるOCR処理のすべてを解説します。, 網羅的に余すところなく、OCR処理の決定版とも言える『OCR処理の解説大全!』を執筆しましたのでぜひご覧ください。, 2009年よりOCR・スキャン専門サービスを立ち上げ、2013年より法人雲紙舎の代表を務めている。設計事務所や国立図書館、大学の研究資料など過去2000件以上の電子化・二次利用をサポート。, OCRとは、「光学文字認識(Optical Character Recognition)」の略語で、印刷文字文書の画像を文字コードに変換する技術のことです。, なんだか凄そう・・・と一見思いますが、つまりは「文書画像から文書をテキスト文字にする技術」のことです。, 例えば、ある本を1冊スキャンしPDFファイルにした際に、その冊子のすべてのページの印刷文字を、テキスト文字に変換することできる訳です。, もしOCRという技術が無かったら、本1冊の情報をテキスト情報にするには、データ入力して作成するしかありません。, そんな時、OCR処理をすれば一瞬で、同じ精度で、低コストでテキストデータにすることが可能です。, ※OCRの歴史は、個人的には面白かったので、かんたんな概要だけ記載しましたので興味がある人は調べてみると良いと思います。, 当時の日本はどっぷりと紙文化だったため、必要な資料を見つける作業にかなりの時間を割いていたものと思われます。, そこでデータ入力と比較してコストが安いにもかかわらず精度が高いOCRにスポットライトがあたり、研究が開始されました。, それが、1990年代に入ってパソコンやインターネットが登場したことで、一気に私達にとって身近な技術となりました。それまでは研究段階だったものが実用段階にステップアップしたのです。, インターネットは検索の世界ですから、印刷文字の文書画像をテキスト化する技術は非常に相性が良かったんです。ここでOCRという言葉とともに、OCR処理の精度も上がっていきます。, ディープラーニング(深層学習)の登場で、手書き文字のOCR処理も高精度で行えるようになりました。, ここまでくると、OCRに出来ないことがないんじゃないか、というくらい進化しています。, この20年のIT技術の進化とOCRには密接な関係があるので、今後も進化し続けていくOCRにご期待下さい。, この章では、OCR処理が具体的にどのような処理をしているのか、その仕組みを説明していきたいと思います。, 若干マニアックですが、知っておくとスキャン業者との話し合いの際に何を言っているのか判断できるようになれます。, (1)まずは紙情報を画像データにする(スキャン) More than 1 year has passed since last update. はじめに. OCRって何がすごいの?改めてご説明しますね。 OCRとは、 「光学文字認識( O ptical C haracter R ecognition)」の略語で、印刷文字文書の画像を文字コードに変換する技術のことです。 なんだか凄そう・・・と一見思いますが、つまりは 「文書画像から文書をテキスト文字にする技術」のことです。 http://www.historyofinformation.com/detail.php?entryid=885, 英語圏で主に使用される数字とアルファベットであれば36キャラクターのみとなりOCR処理数は少なく済みますが、漢字は2010年に公表された現在の常用漢字だけでも2136字、数字やアルファベットなどのOCRと違い画数も多いため、日本語のOCR処理の難易度が格段に高く、海外に比べその難易度が開発と発展の妨げになっていました。, この数年でOCR処理を行うパソコンの性能が格段に上がったことで、OCRを処理を行うプログラム=OCRアルゴリズムがより高度な計算を行うことが可能となりました。今後のOCRのトレンドとしてはAIを活用したOCR】やディープラーニング技術といったキーワードが増えていくことでしょう。, Mobility Edge™とは?|Honeywell製ハンディターミナル・PDAが選ばれる理由, 株式会社イメージャーは2Dバーコードリーダーで世界シェアを持つ米Honeywell社・国内唯一のVAD(総代理店)です。業界歴20年オーバーのメンバーを中心に、バーコードリーダーやRFIDといった【自動認識】に関する技術や製品の情報をお届けしております。【自動認識をみじかに】自動認識に関するご不明点はお気軽にお問合せください。, 通常のバーコードリーダーでは読み取ることができなかった日本市場特有のフォント(明朝・ゴシック等)の認識が可能になります。, 自動認識の【じ】編集部が執筆しております。「自動認識(じどうにんしき)業界をみじかに」をコンセプトに、ニッチな業界の旬な情報をなるべく分かりやすくお届けすることを心掛けている編集部です。, 一度印刷されてしまった文字をパソコンなどのコンピューターが利用できる文字コードに変換する技術, OCRには文字を読み込むためのカメラと文字を識別するためのソフトウェアを組み合わせたOCRリーダーを使用, 日本語のOCR処理の難易度が格段に高く、海外に比べその難易度が開発と発展の妨げになっていました。. (2)画像化されたページのレイアウトを解析する OCRとは印刷された文字や手書きの文字などをカメラやスキャナといった光学的な手段でデータとして取り込み、それを解読することによって一度印刷されてしまった文字をパソコンなどのコンピューターが利用できる文字コードに変換する技術です。, データ入力作業の手間を大幅に削減し2重入力や人的ミスの削減などを目的としたOCRの利用はビジネス用途にも広く浸透しており、流通・製造・医療・小売などあらゆる業界で本来は人が読むために印刷された【文字】をコンピューターに取り込みたいといった要望が根強くあり、バーコードや2次元コードが普及した現在でもOCRの需要はむしろ高まる傾向にあります。, OCRには文字を読み込むためのカメラと文字を識別するためのソフトウェアを組み合わせたOCRリーダーを使用します。 ※動画:バーコードリーダーをOCRリーダーに用いた場合, 運用には読み取り対象や処理するデータ量、オフィスや工場などの運用環境やデータ出力の方法といった用途により最適なOCRリーダーを選ぶ必要があります。, OCRリーダーの種類に関してはこちらの記事:【OCRリーダーの種類|それぞれの特徴は?】にまとめておりますので合わせてお読みください。, OCRは【Optical Character Recognition】の頭文字を取ったもので、「オー・シー・アール」と読みます。, 日本語ではこの【Optical Character Recognition】を訳し、【光学文字認識(こうがくもじにんしき)】(Optical=光学的な Character=文字 Recognition=認識)と表記される場合がありますが、【OCR】がという名称が用いられることが多いです。, アメリカ人の発明家であり暗号解析の専門家でもあったDavid Hammond Shepard氏によって、1951年に世界で初めてOCR技術を使ったシステム=GISMOが開発されました。Shapard氏の余暇の時間にGISMOの開発が行われたようで、氏はOCRシステムの他にも現在クレジットカードの裏面に多く使用されている【Farrington B numeric】というフォントの制作もされました。, ※参考 (4)文字単位で切り出し※みじん切りの要領 OneNote には、光学式文字認識 (OCR)、画像やファイルの印刷イメージからテキストをコピーして、単語を変更できるように、ノートに貼り付けるできるツールがサポートしています。 これは、手順を実行する優れた方法などの OneNote にスキャンした名刺からの情報をコピーします。


多国語のドキュメントの場合も、ファイル上のテキストを正確に認識してくれます。 OCRフリーソフトベスト6- OCRConvert.com. ネット詐欺被害を防ぐNPO法人DLISの代表理事を務め、都内に展開する飲食業「原価BAR」やウイスキー販売会社「トゥールビヨン」も経営しており、デジタル好きと経営者の両方の目線で製品やサービスを紹介するのが得意です。, ビジネスシーンなどで、紙やPDFの書類をパソコンに入力したいときに役立つのが「OCRソフト」です。ビジネスシーンのみならず、趣味の活動でも広く利用されています。本記事では、ITライターの柳谷智宣さんと編集部が選んだOCRソフトのおすすめ11選をご紹介。あわせて選び方のポイントについても解説します。, ビジネスで日々大量に処理されている書類の文章を、かんたんにデータ化してくれるOCRソフト。, OCRとは「Optical Character Recognition」の頭文字で、「光学的文字認識」を意味するIT用語です。OCRソフトは名刺や伝票、PDF資料などの情報を、パソコン上で管理・編集・加工できるテキストデータに変換。文字を自動で認識してくれるので、手間がかかりがちなデータの入力をスピーディーに終わらせられます。翻訳機能を備えた製品であれば、外国語で書かれた取扱説明書などをスキャナーで取り込んで、OCRソフトで翻訳するという使い方もできます。, OCRソフトのニーズはビジネス界だけにとどまらず、学校や個人経営のショップ、サークル活動などさまざま。それらの多様なニーズに応えるために、各メーカーともにいろいろな特色を持った製品を市場に出しています。そこで、代表的な選択肢について詳しく解説しましょう。, OCRソフトでは文字をうまく読み取れないこともありえますし、製品によっても使う環境によっても読み取り精度は異なります。変換されたテキストデータが意味不明な文字列だった場合、修正に時間を取られ逆に作業効率を下げてしまいます。そうならないためにも、読み取り精度にも留意して製品を選びましょう。, 日本語の資料をメインで扱うなら、日本語に対応した一般的なOCRソフトで問題ないでしょう。ただし外国語の場合、言語に対応していなければうまくテキスト化できないことも。外国語の文書や資料を頻繁に取り扱うのであれば、海外メーカーのOCRソフトも視野に入れて選ぶのがよいでしょう。, 個人的な趣味の領域で使うのなら、余分な機能がいくつもあるプロ仕様はオーバースペックになってしまう可能性があります。一方でビジネス上さまざまな機能が必要になるなら、プロ仕様の本格的なタイプを選択するのが妥当でしょう。, OCRソフトは目的に応じてさまざまなオプション機能がついています。「今は使わないが将来必要になるかもしれない」という場合も、とくにビジネス界ではよくあることです。たとえば「外国語対応」「定型帳簿対応」などのオプションは、企業ならいずれ必要に迫られる可能性はあるかもしれません。自社の将来的計画やほかの部署との連携なども考慮のうえ、オプション機能の必要性を探ってみることも大切です。, スキャンしたり撮影した画像から、写っている文字をテキスト化するOCRソフトは、OCR処理したデータをどう活用するのかを考えて選びましょう。名刺をスキャンするなら名刺管理ソフトが適していますし、PDFでの保存ならPDF編集ソフトを利用しましょう。取り込んだテキストを再編集するなら、WordやExcelへの変換機能も必要です。, OCRで注目のアイテムを11点ラインナップしました。それぞれの製品のポイントをおさえながら用途に合ったものを選んでください。, 『やさしく名刺ファイリング PRO』は名刺専用のOCRソフト。名刺をデータ化し氏名や肩書きなどで検索して人脈活用できるようになります。名刺データを手元で管理したい方におすすめ。『Acrobat Standard DC』はAdobeのPDF編集ソフト。スキャンデータをOCR機能で検索可能にする機能も搭載しています。作成するPDFは規格に準拠しているので信頼性が必要な企業ユースにおすすめ。『JUST PDF 4』はジャストシステムのPDF変換ソフト。PDFや各種画像ファイルにOCR処理をすることで、さまざまなファイル形式に変換可能。英語にも対応し、OCR処理によるスペルミスを補正して高精度な変換が可能です。, 海外のお客様、とくにアメリカや東アジア圏のお客様が多いという方におすすめのOCRソフトです。このソフトは日本語・英語・中国語・韓国語に対応しており、読み取った名刺情報をクラウドで管理し、携帯からもチェックが可能。また、取得した名刺情報の中に住所情報があり、それが海外の住所であってもアメリカ・カナダ・中国・台湾・香港であれば住所振り分けて整理してくれます。, スキャンして得たPDFデータを高い再現性にて「ワード」「エクセル」「パワーポイント」に変換可能。また不要な背景や紙の歪みを取り除いてPDF化してくれるので、たとえば確定申告の際に必要な領収書などを読み取りPDF管理することもできます。また、機械は苦手という方でもアドビスペシャリストによる電話サポートがあるので、操作方法が分からないというときでも安心して利用できますよ。, 文書の共有・再利用・再編集・共同編集まで多彩な機能をこなせる高性能かつ多機能なOCRソフト。多種多様なアプリデータをPDFに一括変換することも、逆にワードやエクセルなどのファイルに変換することも可能。加えてアンケートフォームにも対応しているなど利便性の高さが特徴。共同編集やセキュリティ機能も充実しているので、共同研究やプロジェクト関連資料の編集などで活躍するでしょう。, 業界でもトップクラスのシェアを誇るPDFソフトで、PDF編集でほしかった機能が詰まってます。たとえば文章全部をテキスト化するのではなく、ほしい部分だけ選んで変換することもできますし、書類の束から一枚抜き取って順番を入れ替えるようにページの入れ替えがかんたんにできます。また、注釈としてコメントしたテキストを集約して抽出することも可能。どんな校正が入ったのかを取りまとめて見たいときに便利です。文章を編集する人にとってはかゆい所に手が届く仕様になっています。, PDFデータの「編集・調整・追加・削除」の作業を自由自在にこなせる操作性の高さが特徴。PDFデータに関わる作業の一元化が可能になっています。OCR機能によって読み取ったテキストデータを、まるでワードやエクセルを操作するかのように編集することも、検索することもできます。このソフトひとつで、文字編集に関するあらゆることができてしまう利便性の高さ。PDFをワードやエクセル、パワーポイントなどさまざまなファイルに変換でき、スピーディーに仕事がはかどります。, 「ドキュメント・ビューア」というツールで、文書の閲覧や編集が可能。PCのモニター上で再現された仮想デスクに置かれた文書類を処理できます。読み取った紙媒体のテキスト情報は電子媒体と視覚的に一元管理でき、さらに振り分け情報を設定しておくだけで、読み取りから振り分けまでを自動化。定型的な書類整理を加速化させたいという方にはおすすめな一品です。, PC画面の一部分だけを静止撮影および動画録画して保存することが可能。文字や図形を書き込んでから保存することができます。「強制テキスト解析」機能で画面上にあるほとんどの文字・画像が撮影でき、傾いた画像を正常に補正する「まっすぐ補正」機能も便利です。「なんでも手当たり次第にデータ変換したい」という贅沢なニーズに対しても、満足度の高い結果が期待できる利便性の高さが特徴です。遊び感覚で作業できる楽しいツールなので、プライベートに趣味的な用途で利用するユーザーに向いています。, 高い識字率を誇るパナソニック社製の高精度OCRエンジンを搭載。かすれた文字や低解像度の画像も認識できます。名刺を自動でデータ化できる名刺管理機能と、スマホなどで撮影された斜めに写った画像や傾いた写真などもまっすぐに補正する機能が便利です。使いやすさを重視し、ユーザー目線にて開発された製品。多忙な社会人にとっては有能な秘書に等しい働きをしてくれます。ファックス文書を多く扱う部署でも活躍しそうです。, 認識エンジンの精度を追求したOCRソフト。電子書籍との連携では、目次的用途として便利な「しおり」機能が搭載されています。さらに外部クラウドサービスに保存したデータの自動保存システムなども便利です。電子書籍を頻繁に使用するユーザーにおすすめで、理想に近い精度と性能を実現しているツールといえるでしょう。, 紙媒体に印字された文書をデジタルデータに変換するだけでなく、レイアウトはそのままでワード・エクセル・パワーポイントなどに変換可能。変換後のデータ編集もかんたんで、大量のデータを処理するのにも便利です。文書の形式は崩さずにデータ化したいというニーズに応える製品。さまざまな機能を備えながらも操作性はシンプルなので、はじめてOCRソフトを使うという人にもおすすめです。, 137の言語に対応し、アジア・ヨーロッパ諸国の言語はもちろん、中東・アラビアといった言語に至るまでをサポート。画像ファイルもJPG, GIF, PSD, PNG, TIFF, BMPをサポートし、画質の劣化をおさえて圧縮。テキストファイルはWord、Excel、PowerPointなどサポート。Windows版とMac版があります。, Amazon、楽天市場でのOCRソフトの売れ筋ランキングも参考にしてみてください。, ※上記リンク先のランキングは、各通販サイトにより集計期間や集計方法が若干異なることがあります。.