485_main.png

応用分野とのコラボレーションが魅力となる「ベイズ統計学」

2022年12月27日 掲載

【ソーシャル・データサイエンス学部・研究科 授業紹介】

得られたデータをもとに仮説自体の確率を評価する「ベイズ統計学」

画像:城田 慎一郎氏

城田 慎一郎准教授

統計学の中で一般的によく学修される「頻度論」は、ある仮説を最初に設定し、その仮説のもとでデータが得られる確率を評価するというアプローチを取ります。一方で、私が担当する「ベイズ統計学」のアプローチは、得られたデータをもとに仮説自体の確率を評価するというものです。

たとえばベイズにおける「事前確率」では、パラメータに対して研究者が持つ知識に基づき確率分布を設定する手法が採用されます。実際に得られるデータは限られているので、そのデータをどう捉えるか、不確実性を伴う対象の違いをどう考えるか、という点で、頻度論とベイズ統計学は大きく異なっているといえるでしょう。そのため、両者が二項対立の形で議論されることも珍しくありません。

統計学の専門外の領域で柔軟に活用されてきた

ベイズ統計学は、実務的にはとても有益な学問です。たとえば、研究者の知見が相当蓄積されているにもかかわらず、得られるデータが限定的な場合には、事前に蓄積された知見を確率に含めることがきでます。それによって、頻度論よりも精度の高い分析ができる場合があります。保険数理や軍事統計など実務寄りの応用事例がかなり多く、統計学のアカデミアというよりもむしろ、統計学の影響を受けすぎていない応用分野の領域で柔軟に活用されてきた、という歴史があります。

データ採取のコストが高い分野で求められる「モデリング」

また、ベイズ統計学が明らかにアドバンテージを持っているのが「モデリング」の領域です。大規模なデータを使ってかなり複雑なモデルを組む際、パラメーターと呼ばれるモデルの要素を推定します。その推定手法もモデリングの手法も確立されているので、頻度論に比べて有利だといえるでしょう。複雑なモデルの推定と構築ができるので、モデリングを知っておくと、できることがかなり増えるのではないかと考えています。

モデリングが重要になってくるのは、データ採取のコストが高い分野です。私は空間統計という分野の研究を行っていますが、その研究成果は環境生態学などに活用されます。環境生態学は実際に地球上のさまざまなデータが対象になるわけですから、データを取る範囲が広いですし、コストもかかります。このような場合に、ある程度限られたデータの中で仮説を立てるベイズ統計学は有用です。

"ベイジアン"が世界中で研究を行っている

もう一つアドバンテージを挙げると、ベイズ統計学は海外での研究者数がとても多いということです。特にイギリスでは盛んです。そもそもベイズ統計学の基本原理である「ベイズの定理」は、イギリス人数学者のトーマス・ベイズによって発見されました。その後デニス・リンドレーという研究者がベイズ統計学の拠点をイギリスの多くの大学に築きました。

頻度論は主にアメリカのカリフォルニア大学バークレー校を拠点に浸透していきました。イェジ・ネイマンという研究者が中心となり、その拠点から優秀な研究者が数多く輩出されています。もっとも、アメリカでは統計学の研究者の数自体がかなり多く、当然ベイジアンもたくさん活躍しています。

より詳しくベイズの歴史を学びたい方には、参考文献として以下を挙げておきます。『異端の統計学 ベイズ』シャロン・バーチュ・マグレイン著

衛星、植物、神経など異なる分野の研究者とコラボレーションを行う

私個人としては、先ほど触れたモデリングに面白さを感じています。というのも、モデリングを行う場合には必ず一緒に研究をするコラボレーターがいるからです。コラボレーターと話し合いを重ねながら徐々にモデルを改善していきます。

私がコラボレーションを行う相手は環境分野に関わる方が多いのですが、衛星画像を扱うベンチャー企業の方や、植生(生育している植物の集団)データを扱う国立環境研究所の研究員の方などです。また、今はニューロサイエンス(神経科学)でもコラボレーションを進めています。空間統計というよりは時系列解析に近い分野ですが、ここでもやはりモデリングのテクニックや要素がかなり入ってきます。

数学が好きだったことからベイズ統計学の世界へ

私はもともと数学に興味があったので、東京大学の経済学部に進んでからも、数学寄りのゼミを選びました。その時はベイズ統計学の知識はなかったのですが、偶然にもゼミの指導教官がベイズ統計学を専門にしていたため、この分野について学ぶことに。私が現在モデリングに面白さを感じて研究を進めているのは、ゼミでモデリングからベイズ統計学に入っていった影響かもしれません。

ただし、モデリングですべて解決できるわけではありません。先ほど紹介したような応用分野の方々との問題設定があって、モデリングに落とし込んでいくのですが、モデリングしきれないところが課題として残ることもあります。その点はまた新たな研究の種になっていき、手法の開発などを行うといった一連のプロセスに楽しみを感じています。

日本ではベイズ統計学を授業で学べる大学は少ない

ソーシャル・データサイエンス学部では、ベイズ統計学は基礎科目に設定されています。1年次では頻度論をベースにした基礎統計などについて学びをスタートし、その後ベイズ統計学を学ぶという流れになるでしょう。いずれにしろ重要なのは、ベイズ統計学が独立した授業として存在している大学は、日本にはまだ少ないということです。

一方ですでに紹介したように、海外ではベイズ統計学が浸透していて、非常に多くの"ベイジアン"が研究を行っています。データサイエンスに携わっていくうえでは、そういう研究者と議論しなければなりませんから、ベイズ統計学のベーシックな知識は身につけておくべきです。社会科学では経済学やマーケティング、政治学などの分野でもベイズ統計学は使われています。本学部の学生がベイズ統計学を学べることはとても画期的なことだと考えています。

授業ではプログラミングでモデルを作り、シミュレーションを行う予定

ベイズ統計学の授業の目標の一つは、ツールの使い方を覚えることですね。
ベイズには「マルコフ連鎖モンテカルロ法」と呼ばれる推定手法が確立されており、複雑なモデルでもパラメータ推定を行うことができます。
モデリングに関しては「階層ベイズ」と呼ばれる柔軟なモデリング手法があります。推定手法のマルコフ連鎖モンテカルロ法と、モデリングの階層ベイズを自分できちんと使いこなせるようになることが、一つの重要な目安になるでしょう。もっとファンダメンタルな領域の理解も必要ですが、まずはツールとして使えるようになることが大切です。

授業ではマルコフ連鎖モンテカルロ法と階層ベイズを使って何かのテーマを検証してみたいと考えています。自らプログラムを組んでシミュレーションするなど、理論だけではなく実践の大切さも感じてもらうためです。どの言語を使うかは現時点(2022年8月現在)では決まっていません。アカデミアでは数値解析にMATLAB(マトラボ)を使いますが、コストや使いやすさを考慮してR(アール)かPython(パイソン)を候補として考えています。

線形代数や解析学などが理解できていれば、つまずくことはない

専門用語をたくさん使いましたが、ベイズ統計学は学びやすさがセールスポイントでもあります。ですから、安心して授業に参加してほしいですね。学部の授業に必要な数学に関しては線形代数や解析学などが理解できていれば問題ありません。

「数学寄りの授業は難しいから......」と敬遠してしまうような学生さんにこそ、ぜひ来てほしいですね。先入観を取り払って参加してもらえば、難しいことはありません。(談)