謹んで新春のお慶びを申し上げます
皆様のご健勝とご多幸の年となりますことを祈念致します
近年、「ベイズ統計学」という新しいデータ分析の方法が脚光を浴びています。
従来の統計では大サンプルを前提としたデータ分析が主流でしたが、それにはデ
ータの少ない(経験が蓄積されていない)事象については分析の精度が著しく低
下するという問題がありました。しかし、ベイズ統計学ではサンプルが多かろう
が少なかろうが、今あるデータの中から合理的な判断を行うことができるという
メリットがあります。例えば、銀行がある企業に融資をするかどうかを判断する
際、その企業がどの程度信用に値するかという視点から様々なデータを集めるで
しょう。単純化のため、ここではその企業がそれまでに何回納期に遅れたかとい
うデータを使うとします。通常の統計学ではそれまでにその企業と長年にわたる
取引があり、データが十分に蓄積されていることが必要です。しかし、ベイズ統
計学では、「ベイズ更新」と呼ばれる方法で取引経験があまりない企業に関して
も「その企業が信用できるかどうか」を判断できます。
まず、第1期にその企業が納期を守ったとします。納期を守ったということは
その企業が信用に値する企業である確率が高くなるため、「その企業は信用でき
る」と判断されます。第2期にもその企業が納期を守った場合、その企業が信用
に値する企業である確率はますます高くなります。しかし、第3期にその企業が
納期を守らなければ、その企業が信用できる企業である確率は下がります。この
ように、新しいデータ(事後情報)を得るとそれまでの情報(事前情報)がどん
どん更新されていくのがベイズ更新です。データ数(サンプル)が大きいほど情
報の蓄積が多いので、サンプルが大きいにこしたことはないのですが、少ないサ
ンプル(ここでは第3期までの3つのデータ)でも分析し評価していく手法なので
す。
ベイズ更新が「事前情報を新しいデータによって事後情報へと更新していく」
プロセスなら、最初のデータ(ここでは第1期のデータ)は何を基に更新するの
でしょうか?つまり、初期値は何を与えるのでしょうか?ここにベイズ分析の大
きな特徴があります。「この会社の社長は人柄がしっかりしているから信頼でき
る」などの、主観情報を初期値に設定するのです。例えば、その企業が信用でき
る企業である確率を少し高めの80%ぐらいに設定しておくのです。従来の統計分
析では、主観情報は「非科学的」として排除しているため、何も情報がない段階
では主観が入らないようにその企業が信用できる確率を50%とします。しかし、
我々が日常的に意思決定を行う際、それまでの勘や経験、評判や噂などを参考に
することは頻繁にあります。このような「人間の常識」を明示的に分析に織り込
めるという点で、ベイズ分析は従来の統計学よりも柔軟に判断できるのです。つ
まり、客観情報だけでなく、主観情報も有用なデータとして分析に役立てている
のです。
現在、ベイズ分析は様々な分野で応用されています。例えば、迷惑メールの分
類に使われているのは「ベイズフィルター」と呼ばれる分類法の応用です。ベイ
ズフィルターでは、「無料」という言葉があるメールに含まれていればそれが迷
惑メールである確率が高くなるという判断を下します。一方で、迷惑メールであ
まり含まれない「統計」という言葉がそのメールに含まれていると、そのメール
が迷惑メールである確率が下がります。このほかにも、天気予報や人工知能、顧
客情報管理など「新しい情報によってプログラムがどんどん学習していく」こと
が必要になる分野での応用が広がっています。
参考文献
中妻照雄 (2014)「入門 ベイズ統計学」朝倉書店
------------------------------------------------------------------------------------------------------
■執筆者プロフィール
中村 絵理(なかむら えり) 神戸大学 経営学研究科 准教授
コメントをお書きください
Tammi Scheuermann (月曜日, 23 1月 2017 05:18)
What's up it's me, I am also visiting this website daily, this site is genuinely nice and the users are genuinely sharing nice thoughts.