最近の第三次AIブームの切っ掛けは、2009年にIBMのワトソンがクイズ番組でチャンピオンに勝利したことです。ワトソンに用いられている機械学習(技術)は、世の中の特定の事象におけるデータの特徴を定義・抽出し、その傾向から主に統計手法を用いて判断や予測を行うものです。一般に、この機械学習では、特徴の定義・抽出や統計手法の選択、その後の学習データの収集とシステムへの入力(=教育)を人間が行う負担が大きいことが課題です。今回はワトソンを試しに使って、その効果と負担を確認したので紹介します。
1. ワトソンの概要
IBMは、近頃、AIやデータ分析に関連する様々な製品にワトソンの名称を冠しています(Watson IoTなど)。本稿では当初のワトソンである「質問回答システム」を前提とします。これは、通常の日本語の文(テキスト)で質問を入力すると、事前に蓄積された情報に基づいて回答候補を抽出し、確度の高い順に並べて提示するシステムです。つまり、当初のワトソンは情報検索システムの一種と言えます。
ワトソンの応用例として有名なものに、みずほ銀行のコールセンターがあります。顧客が電話で質問すると、オペレーターの画面に回答候補が複数提示され、オペレーターはその中から選んだものを電話で回答します。完全自動化となっていませんが、通話時間を短縮する効果が認められています。東大医科学研究所の事例では、患者から採取した癌組織の遺伝子配列を解析・入力すると、過去に発表された2千万本以上の医学論文や薬の特許情報他を検索し、癌の根拠や抗癌剤の候補を提示するそうです。
2. ワトソンの検証
掲示板サイトおよび電話で対応しているITに関する社内の質問に、ワトソンが自動回答するシーンを想定して検証を実施しました。最初に、質問の実績に基づいて従来から社内に提供しているQ&A集2千件をワトソンに登録しました(初期学習)。次に、実際に発生した問合せ1.7万件の中から百件をピックアップしてワトソンの回答検索機能(Retrieve & Rank API)に入力し、回答候補の上位5位以内に正答が提示される割合(正答率)を確認しました。最後に、正答が提示されない質問について、Q&Aをワトソンに追加登録(追加学習)して正答率の改善を試みました。
以下、検証結果を正答率と負担に分けて示します。
[ワトソンの正答率]
初期学習後のワトソンの正答率は87%でした(問合せ87件に正答)。初期学習後の正答率の高さは、初期学習に用いたQ&A集(2千件)が実際に発生する質問の多くをカバーしていること、(後述するように)それらQ&A集が的確に整形されており、質問表現の変化に対応していたことが理由です。
追加学習は大きく2パターンに分かれます。回答が登録済みのQ&A集に含まれる場合、類似質問Q'の追加によりあらたなQ'&Aを登録します(パターン1)。質問/回答共に登録済みのQ&A集に含まれない場合、あらたなQ''&A''の組を登録します(パターン2)。今回の検証では、パターン2の追加学習を要するケースはなく、パターン1の追加学習によって8件が正答となり、最終の正答率は95%でした。残りの5件は不具合対応方法の質問であり、質問から一意に回答が定まらず、質問者とオペレーターとの間のやり取りを要する複雑なものでした。
最終の正答率を高める方法は、初期学習や追加学習で登録するQ&Aについて、実際に発生する質問に含まれる頻度が高いキーワードや質問の特定に結び付くキーワードを登録する質問(Q)の中で使用することで、質問の表現が変化してもワトソンが正しいQ&Aを見つけやすくすることです。これには業務知識とある程度のワトソンのスキルが必要です。
最後に、回答候補の中の順位を上げる方法を説明しましょう。最終正答となった95件を順位別に見ると、1位45%、2位16%、3位14%、4位11%、5位9%でした。正答の順位を上位とするには、類似質問を多く登録(追加学習)して質問表現の変化に対応させることが有効です。また、ワトソンには、チャットボットのような対話機能(Conversation API)があります。この機能を用いると、ワトソ
ンからの短文の質問に答えて行くことでワトソンが正答に辿り着くといったインタフェースを実現できます。もっとも、後述するように対話機能の使用には大きな負担を要します。
[ワトソンに係る負担]
ワトソンにおいては、文章の特徴の定義・抽出手法やその分析に用いる統計手法がパッケージに包含されているため、一般の機械学習と比べると、それらを選定・実装する負担が不要です。また、初期学習の負担は小さいものでした。これは、ワトソンが高度な日本語解析機能を有するため、初期学習の作業が「文章を定められたフォーマット(JSON形式)に変換して登録する」という単純なものだったことや、Q&A集(2千件)があったため、学習用データを一から整備する必要がなかったことによります。また、Q&A集が的確に整形されていたため、初期学習後の正答率が高くなり、追加学習の件数(負担)が少なく(小さく)なりました。
最後に、ワトソンの対話機能に伴う負担について簡単に説明します。対話機能を使うには、条件分岐(ある状況になったら特定の質問をワトソンにさせ、次の状況に遷移するという定義)を多数設定するため、業務知識やワトソンのノウハウを持ち、ボリュームも大きい作業を要します。したがって、回答候補の上位5位内に正答があれば可とすることが望ましいですが、顧客が対象の場合は1位のみ提示すべきでしょう。
3. ワトソンの業務適用について
ワトソンの業務適用を検討するには、先述の正答率から導かれる効果と負担から導かれる費用を比較するのが判りやすいでしょう。効果としては、コールセンターやITに関する質問への回答の例では、電話時間の短縮・削減に相当するオペレーターの人件費の低減となります。また、定性的効果として属人性排除による品質向上もあります。費用としては、初期学習と追加学習に掛かる負担(費用に換算)と後述のアプリケーション開発に要する費用の合計となります。今回の検証では、追加学習は1回のみ実施しましたが、実運用の場合は質問の種類が変化することがあり得るため、恒常的に実施する費用を算出します。また、効果と費用については、机上のみで算出することは難しいので実証実験(PoC:Proof of
Concept)をお勧めします。
------------------------------------------------------------------------
■執筆者プロフィール
岩本 元(いわもと はじめ)
ITコーディネータ、技術士(情報工学部門、総合技術監理部門)
&情報処理技術者(ITストラテジスト、システムアーキテクト、
プロジェクトマネージャ、システム監査他)
企業におけるBPR・IT教育・情報セキュリティ対策・ネットワーク構築のご支援
コメントをお書きください