「異端の統計学ベイズ」という本を読みました。ベイズ推定が様々な分野に応用されてきたにも関わらず長い間認められなかったいきさつは、技術書というより読み物としておもしろかったです。今回は同書をご紹介します。
〇ベイズの法則とベイズ推定
ベイズの法則は、18世紀にベイズが発見、ラプラスが数式で定義しました。
本書に登場する唯一の数式です。
P(C|E)×P(E)=P(E|C)×P(C) ※ C:原因、E:事象、P:確率
ここで P(〇|△) は条件付き確率と呼ばれるもので、△を前提として〇が起きる確率を表します。例えば、Cを「喫煙習慣」、Eを「肺がん」とすると、喫煙習慣のある人のうち肺がんになる人の割合は、P(肺がん|喫煙習慣)と表現されます。これはベイズの法則から P(喫煙習慣|肺がん) すなわち肺がん患者の中で喫煙習慣のあった人の割合、肺がんになる人の割合、喫煙習慣のある人の割合から計算できます。
このように関連する確率を用いて、ベイズの法則によって目的の確率を見積もる手法をベイズ推定と呼びます。ただし、関連する確率を計算するためのデータが十分に揃っていない場合、全事象の発生確率を等しいとするか、専門家が経験に基づいて個々の事象の確率を設定し、あらたにデータを得る度に再計算してブラッシュアップします。
〇ベイズ推定の応用
当初、ベイズ推定は主に軍事応用されたため、その成果は機密事項とされ、陽の光を浴びることはありませんでした。
・弾丸の品質検査
フランス陸軍は1ロット2万発の弾丸に対して20発を破壊検査することで十分な品質を確保する検査表を作成しました。
・暗号の解読
第二次世界大戦時、チューリングはドイツの暗号装置エニグマで暗号化された無線電文を解読する際にベイズ推定を用いて、検査すべきエニグマの設定(暗号化鍵に相当)の数を大幅に減らしました。日本軍の暗号解読にも用いられたそうです。
・原子力潜水艦の探索
クレイヴンは、大西洋で行方不明となったアメリカ海軍の原子力潜水艦を1万地点の候補箇所から発見する際、ベイズ推定を用いて候補箇所を動的に絞り込みました。
他には以下のような応用事例があります。
・木星と土星の質量推定
ラプラスとブヴァールは、木星と土星の質量を誤差1%以内で予測しました。
・心臓疾患の原因分析
10個のリスク因子の高/中/低の組み合わせと心臓疾患の関係を臨床評価するには、少なくとも509,403の症例が必要です。コーンフィールドは、より少ない症例からベイズ推定を用いた探究的分析により、コレステロール、喫煙、心臓異常、血圧の4個が重要なリスク因子(高いと疾患になる確率大)であることを示しました。これにより、40年間で全米で62万人が命拾いしたと言われます。
・スペースシャトルの事故確率
NASAの推定値である10万分の1に対し、ベイズ推定では1/35と予想されました。その後、25回目の打ち上げでチャレンジャーは爆発事故を起こしました。
・ディーゼル車の排気ガスががんに及ぼす影響
人間と人間でない生き物が生物学的にどう関係しているか、たばことディーゼル車排ガスにはどのような関係があるのか、について専門家の意見も踏まえて確率を設定し、検証した結果、たばこに比べて無視できる影響度(たばこの42万分の1)と推定しました。
〇ベイズ推定とコンピュータ
「ある/なし」といった離散型の確率分布でなく、「範囲に含まれる/含まれない」のような連続型の確率分布を対象とするベイズ推定では積分計算が必要です。当初、コンピュータが登場してデータの収集や蓄積に使われるようになると、データが多くなりすぎて手作業でベイズ推定を行うことが不可能になりました。
その後、マイクロコンピュータの登場および積分計算をマルコフ連鎖に置き換える手法(マルコフ連鎖モンテカルロ法)が考案され、複雑な積分計算が可能になりました。1992年にベイズ解析を行う無料ソフトウェアBUGSが公開されて、ベイズ推定は世界中に広まっています。
〇ベイズ推定の現在
経済や金融の世界ではベイズがよく登場します。情報が不完全だったり、欠陥のあったりするゲームにおけるナッシュ均衡もベイズの法則から導かれます。アメリカ連邦準備制度理事会のグリーンスパンは、通貨政策のリスクを見積もる際にベイズ統計を用いたと述べています。
天文学者、物理学者、遺伝学者もベイズ推定を使って、干し草の山の中から針を探すような問題に取り組んでいます。超新星が爆発したときに検出された18個のニュートリノから星の内側の状態に関する情報を引き出し。何千もの遺伝子間の組み合わせから腎臓と脳の細胞の違いを生み出しているものを特定しています。
スタンフォード大学の開発した自動運転車は、時速50km以上で走りながら、搭載されたカメラの画像より様々な障害物の存在確率をベイズ推定ではじき出してスピードを落として回避する機能を持ち、ネバダ砂漠を横断するレースを7時間で走破し優勝しました。
インターネットの世界にはベイズ推定が浸透しています。よく知られているのはスパムメールの検出です。ベイズ推定を用いて、メッセージに含まれた単語や言い回しからスパムメールである確率を算出します。Eコマースの頼みの綱であるレコメンド機能(この品物を好む人はあの品物も好む確率が高い)ではベイズ推定が突 出した役割を果たします。Googleの検索エンジンはベイズ推定を用いて数十億のwebページをキーワードに関連の高い順に並べます。また、それぞれの単語がどのように綴られる可能性があるかをインターネット全体から検出し、キーワードのス ペルミスを修正します。
〇感想
本書でもところどころに述べられていますが、ベイズ推定はビッグデータ分析の典型と言えます。決定木(デシジョンツリー)もベイズ推定のツールだそうです。また、ベイズ推定は機械学習の基本原理の1つでもあります。そのような手法が250年前に考案されていたことは驚きでした。
あるアナリストは、「ベイズはぶしつけで安上がりで簡単なごまかしだ。なにしろ最初の直感に頼っているのだから。それでも、この世界の多くの問題を解決できそうな効率的近似だということが明らかになっている」と述べているそうです。す なわち、ベイズ推定の結果はどのような場合でも正しいとは言えませんが、現時点で最も現実的な問題解決方法です。将来は、シンギュラリティにより、ベイズ推定を超える解決方法が登場するのかも知れません。
(参考)
・Wikipedia「ベイズ推定」:
・経営とITの話「経営変革を考える新たな視点:ベイズ統計への誘い/中村 絵理」
------------------------------------------------------------------------
■執筆者プロフィール
岩本 元(いわもと はじめ)
ITコーディネータ、技術士(情報工学部門、総合技術監理部門)
&情報処理技術者(ITストラテジスト、システムアーキテクト、プロジェクトマネージャ、システム監査他)
企業におけるBPR・IT教育・情報セキュリティ対策・ネットワーク構築のご支援
コメントをお書きください