生産性向上のヒント

第3回：シリーズ『AI画像認識』（1／2）

シリーズ『AI画像認識』の第1回と2回では、AIやAI画像認識に対する過剰な期待やよくある誤解を「5つのミスジャッジ」として整理してご紹介しました。では、そうしたミスジャッジを防いだとして、AI画像認識を現場に導入することで、どんなメリット、そしてデメリットを生むのでしょうか。今回は、AI画像認識の「真実」に迫ります。

ディープラーニングで「できること」「できないこと」

AI画像認識のコア技術の1つにディープラーニング（深層学習）があります。
ディープラーニングは、収集したデータから特徴を学習する工程を何層にもわたって繰り返すことで、高い認識精度を実現する技術です。画像認識・音声認識の領域では、すでに人を超える認識精度を実現しているケースも報告されています。

これまでの画像認識では、画像に含まれる特徴的な部分を人間が判断し、人間が書いたアルゴリズムに沿って分類していく手法が一般的でした。例えば、「猫」を認識する場合、「尖った耳」「アーモンド型の目」「丸くなった背中」といった要素に対してアルゴリズムを設計し、記述していました。

ただ、猫の耳はネズミにかじられて欠けているかもしれませんし、夜には目が丸型かもしれません。驚いて背筋がピンと伸び切った猫もいるでしょう。そうしたさまざまな要素を人がすべて判断してアルゴリズムを設計することには限界があったのです。

それに対して、ディープラーニングによる画像認識では、物体を認識するための要素（特徴点という）を、収集したデータに共通している特徴から自動で導き出します。そして、導いた特徴のそれぞれに対して、画像の中の猫を猫として判断する起因度合いに応じた重み付けの値を設定します。

例えば、猫を判断する場合の特徴が、耳・目・体形の3つとしたときに、耳の特徴を55％、目を25％、体形を20％といったかたちで重み付けをして評価するイメージです。

この例の場合、体形がそっくりな場合より、耳の特徴が似ている方が、猫と判断される可能性が高いことになります（耳のほうが判断材料として重みが大きいため）。

では、この重み付けの値は、どのように決められるのでしょうか──。

ディープラーニングでは、『たまたま教師データとして与えられた画像』の一部を評価用として取り出し、残りを学習用として頭脳を作ります。そして、事前に取り出した評価用の画像を使って、その生成した頭脳が、どの程度正しく認識できるかを評価します。その後、膨大に存在する変数の組み合わせ（どれを特徴点に選ぶか、その重みはどうするか、など）による頭脳を仮に作り実際に認識評価を行い、一番正しく評価できた組み合わせを頭脳として採用します。※1

ここで着目していただきたいのは、ディープラーニングのAIでは、猫の画像を猫と判断する場合に、「なぜそれを猫と判断するか」の理屈を積み上げていくのではなく、単純に『一番正しく判断できた条件がそれだったから』という従来とは異なる方法で頭脳が作られていくことです。

そのため、ある認識に対してAIが出した結論が、人の結論とは異なるものであっても、人には、『なぜそのようにAIが判定したか』が分からない状態に陥ります。このシリーズ『AI画像認識』の第1回で、鉛筆を認識させる際にいつも白い紙の上に置いた画像で学習をさせると、『背景が白』という鉛筆には関係のない要素まで、鉛筆の特徴としてしまうと述べましたが、この時のように、たまたま与えた教師データに偏りがあったことが原因かもしれませんし、それ以外に原因があるかもしれません。いずれにしても、AIが導いた結果に対して、因果関係を知ることが難しいという特徴があります。

ともあれ、ディープラーニングは、各層ごとにデータを入力して結果出力を繰り返すことで、局所的な特徴から抽象的な概念まで判断することができる頭脳を形成します。これは、人のニューラルネットワーク（神経回路網）に似ています。また、ディープラーニングは、教師データと呼ばれる学習用のデータを使って頭脳の学習が進行していきますが、偏ったデータばかりで学習させていると、少し困った結果を引き起こすリスクがあるのも、人との共通点と言えるかもしれません。

このように、ディープラーニングが人の「脳」と似た仕組みを持つことは、ときにはメリットになり、デメリットにもなります。特に、工場の製造ラインなどのビジネスの現場に適用する場合は、特徴点が明確な特化用途を目的とすることがあるので、ディープラーニングによる判断ではなく、むしろ従来のアルゴリズムにより判断をする仕組みのほうが望ましいケースもあるでしょう。このようなディープラーニングが持つ特徴を踏まえながら、適材適所で活用していくことが求められます。

以上の内容を踏まえながら、本稿ではディープラーニングに関する以下の「3つの真実」について前編・後編の2回に分けて明らかにし、製造現場でのディープラーニング活用の可能性を探っていきます。

真実その1：課題によっては、ディープラーニングを使わないほうがよい領域がある
 真実その2：ディープラーニングの頭脳を育てるには相当の労力がいる
 真実その3：画像認識だけでは、製造ラインの完全自動化は難しい

これら3つの真実の中から、前編の今回は最初の真実『課題によっては、ディープラーニングを使わないほうがよい領域がある』という点について詳しく説明します。

※1：ディープラーニングでは、対象物の特徴点、重み付け、評価データの選び方など、さまざまな条件で認識評価を繰り返し実行し、最も認識率が高い組み合わせを見つけます。そのため、頭脳づくり（機械学習）には、高性能なコンピューターが必要となります。