第18回:シリーズ『AI画像認識 再入門』(1/2)

ヒトとは違う「AI」の使いどころ

本シリーズでは、「AI画像認識 再入門」と題し、AI画像認識の基礎的な理解を深めていただくための情報をお届けしています。本シリーズの前回では、「5歳児」とAI(人工知能)による画像認識の比較を通じて、ヒトとAIとの違いについて解説しました。今回は、ヒトとは違う能力を持ったAIの使いどころについて明らかにします。

ディープラーニングの復習

今日、AI(人工知能)への期待は大きく膨らんでおり、日本政府が推進する次世代社会構想「Society 5.0」でも、産業・社会の最適化を実現するエンジンとしてAIが据えられています。なかでも、ディープラーニング(深層学習)を応用したAIへの期待感は高く、「データをコンピューターにインプットするだけで、ヒトの代わりに何でもしてくれるAIがすぐに作れる」といった考え方も見受けられるようです。

確かに、ディープラーニングの技術はすばらしく、これによってAIの可能性は大きく広がっています。ただし、ディープラーニングを使ったAIにも限界があり、ある作業については、ヒトをはるかに超える能力を発揮する一方で、ある作業については、“5歳児”でも簡単にできてしまうことが、なかなかできなかったりします。

ということで、ここで改めてディープラーニングについて、画像認識を例にとりながら、簡単におさらいしておきましょう。

ディープラーニングによる画像認識は、“機械学習”によって、「頭脳」を生成することから始まります。この頭脳は、数多くの学習データを元に、新たに発生した事象がどんな意味を持っているかを推論することができます。

例えば、医療画像を分析する頭脳を生成するとします。この場合は、コンピューターに対して、X線画像におけるがん細胞の画像や正常な細胞の画像を学習データとして数多くインプットします。これにより、がん細胞(のX線画像)の特徴が自動的に割り出され、その特徴との照合によって、新しく(入力された)X線画像にがん細胞があるかどうかを推論する頭脳が生成されるのです。

ディープラーニングによって生成された頭脳は、ヒトの脳のように働きます。ただし、ヒトの脳のように一つで多くのことができるわけではありません。

言うまでもなく、ヒトは、勉強やトレーニングによって、自動車の運転ができてX線画像のがん細胞も判別でき、将棋もできるようになる可能性があります。それに対し、ディープラーニングにおいては、自動車を運転するための頭脳や、将棋をするための頭脳、X線画像からがん細胞を見つける頭脳を個別に生成しなければなりません。言い換えれば、ディープラーニングは、特定の作業に特化した専用の頭脳を生成するための仕組みと言えるわけです(図1)。

図1:ディープラーニングの仕組み
図1:ディープラーニングの仕組み

将来的には、ヒトの脳と同じように、一つで、自動車の運転、医療画像分析、将棋など、ヒト(の脳)ができることなら、なんでもできるようになる汎用的なAIが開発されるかもしれません。ただ、それはまだ先の話と言えるのです。

AI画像認識が抱えるハンディキャップ

ディープラーニングは、特定の作業を行うための専用の頭脳を生成するための仕組みです。そのため、この技術を使ったAI画像認識も特定の仕事を効率化するための仕組みと言え、それをどの業務に適用すると最も効果的なのかを検討することが重要となります。

このとき、まず知っておくべきことは、AI画像認識が「できないこと」「不得意なこと」は何かです。

例えば、AI画像認識は基本的に、「視覚でとらえた情報を分析する」というヒトの能力を模した仕組みです。ですから、製造ラインの出荷検査において、商品のひび割れやキズなどの外観状の異常はチェックできても、検査員が触感で確認している「プラスチックのバリ」「ビスの締め付けの緩み」「はめ込み不良」など、見た目で分からないセット成型上の異常はチェックできません。

また、ディープラーニングを使ったAI画像認識は、ヒトならば簡単に認識できるような「食べこぼしのシミ(衣服やテーブルクロスについたシミ)」や「連続的に動作するビー玉」を認識するのも苦手です。したがって、このような画像認識の領域に、AI画像認識を無理に適用しようとしても、業務上の改善効果、あるいはビジネスメリットがほとんど得られないおそれがあります。

もうひとつ、ヒトには簡単にできるものの、AI画像認識には非常に難度が高いことがあります。それは、「見る条件をさまざまに変えてトライを繰り返し、リアルタイムに学習し、認識の精度を上げる」ということです。

ここで、「お札のすかし」や「指に刺さったトゲの状態」を確認する場面を想像してください。このようなとき、ヒトは、モノの形状や状態をよく確かめようと「見る角度を変える」「見ているときの光の状態を変える」「見る大きさを変える(対象物と自分の目との距離を近づけたり、離したりする)」「モノを回転させたり、動かしたりして連続して見る」といった試行を繰り返すはずです。これにより、ヒトは「認識のために最適な画像とは何か」をリアルタイムに探し当て、認識精度を高めているのです。「これは見やすい」「これは見づらい」という経験に基づいて瞬時に脳を更新するのは、ヒトが持つ、極めて優れた能力で、これと同じ能力を、AI画像認識を使ったシステムで実現するのは、かなり難しいと言わざるをえません。

さらに言えば、物事の状態を確認する際、ヒトは「手ざわり」「におい」「味」「音」といった視覚以外の感覚でとらえた情報も巧みに使います。これと同じことをシステムで実現するには、AIにもヒトと同じ五感を持たせなければなりません。そのためには、画像のみならず、「手ざわり」「におい」「味」「音」などをすべてデータ化して、学習データを作り、新しい事象の意味を“五感”を使って推論できる頭脳を生成する必要があるでしょう。

バックナンバー























商品に関するお問い合わせ

パナソニック ソリューションテクノロジー株式会社 お問い合わせ受付窓口
電話番号: 0570-087870
    受付時間: 9時00分~17時30分 (土・日・祝・当社指定休業日を除く)

お問い合わせイメージ お問い合わせイメージ

※ 記載されている会社名、商品名は各社の商標または登録商標です。なお、本文中では™、®マークは基本的に明記していません。