第38回:シリーズ『AIで進化するOCR新事情』(1/2)

本シリーズでは、AI(人工知能)によるOCR技術の進化に着目しながら、最新のOCR技術によって何が可能になるかをご紹介しています。前回は、いま話題の「AI OCR」の概要についてお話ししました。今回は、パナソニック ソリューションテクノロジーが提供しているAI OCRのソリューションにフォーカスを当てます。
パナソニック「AI OCR」の輪郭
「AI OCR」とは、ディープラーニングなどのAI技術によって、OCRによる手書き文字認識の能力を高めた仕組みです。
パナソニック ソリューションテクノロジーでは現在、このAI OCRの機能を「AI手書き認識」エンジンとして提供しています。AI手書き認識エンジンの特長は一点に集約できます。それは、これまでのOCRでは認識できなかったような「自由手書き文字」の認識を可能にしていることです。
例えば、AI手書き認識エンジンを使うことで、以下のような手書き住所も高い精度で認識できるようになります。
■ 手書き住所サンプル




■ サンプルの認識結果

ご覧のとおり、AI手書き認識エンジンでは、自由手書きの住所が高精度で認識できるほか、特定フィールド(例えば、住所欄)からの文字のはみだし【サンプル(2)】やアンダーライン【サンプル(3)】、上下欄からの文字のはみだし【サンプル(4)】などがあっても、手書き住所を高精度で認識できます※1。また、住所のみならず、自由手書きの氏名や会社名も精度よく認識することが可能です。
※1 認識の精度は100%ではありません。ご留意ください。
AI手書き認識エンジンの2つの活用形態
パナソニック ソリューションテクノロジーは現在、お客様のシステムにOCR機能を実装するためのWeb API群「クラウドOCRサービス」の一つとして、AI手書き認識エンジンを提供しています。このサービス(Web API)は、「クラウドAI OCRサービス」と呼ばれますが、その活用形態は2つに分かれます。
1つは、開発者の方が、自社のシステムにクラウドAI OCRサービスを組み込む形態です。またもう1つは、利用者の方が、パナソニックの帳票用OCRソフトウェア「帳票OCR」の機能としてクラウドAI OCRサービスを使う形態です。
このうち、開発者の方によるサービス活用のイメージは、図1のとおりです。

図1にある「帳票認識ライブラリー」とは、複数の文書フォーマットの中から帳票画像に適合するフォーマットを識別し、帳票内の文字画像やチェックマークなどを認識して、文字コードに変換するためのSDK(開発ツールキット)です。
このSDKを使うことで、手書き文字を含む帳票から、手書き文字の領域を切り出し、その画像データをクラウドAI OCRサービスに送信することが可能になります。それを受け取ったクラウドAI OCRサービスは、手書き文字画像をOCR処理してテキストデータに変換します。その認識結果を受信して、アプリケーションで利用するというのが、サービス活用の流れです。
こうした仕組みにより、開発者の方は、自社のアプリケーションに簡単にAI OCRの機能を組み込むことが可能になります。
一方、帳票OCRの機能としてクラウドAI OCRサービスを使うイメージは図2のとおりです。

この図に示した帳票OCRとクラウドAI OCRサービスとの連携は自動的に行われます。つまり、帳票OCRで文字認識を実行すると、バックグラウンドで自動的にクラウドAI OCRサービスとの連携処理が行われ、帳票内の手書き文字画像がテキストデータに変換されるわけです。
また、そのテキストデータを帳票OCRでCSVデータへと変換することで、他システムでの利用が可能になります。
バックナンバー
商品に関するお問い合わせ
パナソニック ソリューションテクノロジー株式会社 お問い合わせ受付窓口
電話番号: 0570-087870 受付時間: 9時~12時、13時~17時30分(土・日・祝・当社指定休業日を除く)

