中心極限定理と確率分布族の再生性

確率・統計の分野における定理と言えばいろいろあるが、中でも中心極限定理は有名だろう。ざっくり言えば、中心極限定理とはある確率分布に従う独立な確率変数をたくさん取り出すと、それらの和が従う確率分布は正規分布に近づいていくというものである。

一方で、確率分布の中には再生性と呼ばれる性質を持つものがある。これは、ある確率分布族に属する2つの確率分布に対して、それぞれに従う2つの独立な確率変数の和を取ると、その和が従う確率分布は再び元の確率分布族に属するというものである。

これらは一見すると矛盾しているようにも思える。なぜなら、一方は和の確率分布が正規分布になると言い、もう一方は和の確率分布は元の分布と同じ分布族に属すると主張しているからである。

そこで本稿では両者の間にどのような関係があり、どうすれば両者を矛盾なく解釈できるかについて考えてみる。

中心極限定理

中心極限定理の内容をWikipedia[1]より引用する。

期待値  \muと分散  \sigma^2 を持つ独立同分布 ("i.i.d.") に従う確率変数 ("r.v.") 列  X_1,\ X_2, \ldotsに対し、
 \displaystyle{
S_{n}:=\sum _{k=1}^{n}X_{k}
}
とおくと、
 \displaystyle{
P{\Big (}{\frac {S_{n}-n\mu }{{\sqrt {n}}\sigma }}\leq \alpha {\Big )}\to {\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\alpha }e^{-{\frac {x^{2}}{2}}}dx\qquad (n\to \infty ).
}
つまり、i.i.d. r.v. 列の和を標準化すると、期待値 0, 分散 1 の正規分布 N(0, 1) に分布収束する。

記事[1]の英語版には記載があるのだが、定理成立のためには分散が有限の値を取ることも必要なので注意されたい。

確率分布族の再生性

定義

続いて、再生性の定義をWikipedia[2]より引用する。

確率分布族の再生性
分布族 \mathbb{F}を考える。

任意の確率分布 F_{1},\ F_{2} \in \mathbb{F}に対して、 F_{i}に従う互いに独立な確率変数を X_{i}とおく (i=1, 2) 。これを X_{i}\sim F_{i}と書く(以下同様)。

このとき、 X_{1}+X_{2}の確率分布Fが F\in \mathbb {F}を満たすならば、分布族 \mathbb{F}は再生性を持つという。

ここで、分布族 \mathbb{F}としては、例えば正規分布の族や二項分布の族などをイメージしておくと良いだろう。実際、これらの分布族は再生性を持つことが知られている[2]。

確率分布族に再生性がある場合、3つ以上の確率変数の和についても同じ分布族に属する確率分布に従う。

確率密度関数の畳み込み

定理の中で登場した確率分布 F_{1},\ F_{2},\ F確率密度関数をそれぞれ f_{1},\ f_{2},\ fとすると、fは具体的に f = f_{1} * f_{2}と表すことができる。ここで*は畳み込み演算を表す。畳み込み演算は (連続的な値を扱う場合) 以下のように定義される[3]。

\displaystyle{
(f * g)(x) = \int^{\infty}_{-\infty} f(t)g(x-t) dt
}

最初の疑問への答え

ここで、冒頭で掲げた疑問の答えについて考えてみよう。 \mathbb{F}を再生性を持つ分布族とする。また、確率分布 F \in \mathbb{F}確率密度関数をfとする。Fに従う独立な確率変数の列 X_1,\ X_2, \cdots ,\ X_nの総和 S_n = X_1 + X_2 + \cdots + X_nが従う確率分布の密度関数は f * f * \cdots * f (fをn個畳み込み) となる。念のため述べておくが、畳み込み演算は結合法則が成り立つので、演算順序を括弧で明示せずとも結果は一意に定まる[3]。

 \mathbb{F}の再生性により f * f * \cdots * fが表す確率分布は \mathbb{F}に属する。一方、中心極限定理により n \to \inftyのときその累積分布関数は正規分布に近づいていく。つまり、最初の疑問への答えとしては「確率変数の和の累積分布関数は n \to \inftyでもあくまで分布族 \mathbb{F}に従うが、同時に正規分布の累積分布関数に限りなく近づいていく」ということである。つまり、再生性と中心極限定理の主張は (当たり前だが) どちらも同時に正しいのである。

例として二項分布について考えてみよう。確率変数 X_1,\ X_2,\ \cdots ,\ X_nは互いに独立で、かつ二項分布 \mathrm{B}(m,\ p)に従うとすると、これらの総和 X_1 + X_2 +\ \cdots + X_nは二項分布 \mathrm{B}(nm,\ p)に従う。nがどれだけ大きくなってもこれが二項分布であることに変わりはないが、一方でだんだんと正規分布にも近づいていくのである。

実用上、nが大きくなると \mathrm{B}(nm,\ p)を計算するのは骨が折れる。そのため、近似的に正規分布に従うと考えて、計算を簡略化できたりするようだ[4]。

なぜ累積分布関数?

ここまでの議論では何かと結論を累積分布関数に結びつけてきた。確率・統計素人の私からすると確率密度関数で考えた方が簡単そうに思えるわけだが、なぜ執拗に累積分布関数に言及する必要があったのか?その理由は先ほど引用した中心極限定理のstatementをよく見ると分かる。重要な部分を抜き出してみる。

i.i.d. r.v. 列の和を標準化すると、期待値 0, 分散 1 の正規分布 N(0, 1) に分布収束する。

先ほどはさらりと流したが、ここに登場する「分布収束」という概念が肝である。Wikipedia[5]より定義を引用する。

分布収束
確率変数の列 X_{1},\ X_{2},\ldotsが、ある確率変数Xへと分布収束する、あるいは弱収束あるいは法則収束(converge in law)するとは、
\displaystyle{
\lim _{n\to \infty }F_{n}(x)=F(x),
}
が、Fが連続であるような全ての数 x \in\mathbb{R}に対して成立することを言う。ここで、 F_{n} およびFはそれぞれ確率変数 X_{n}およびXの累積分布関数である。

この定義を見ると分かるように、中心極限定理において正規分布に近づいていくのは累積分布関数であり、確率密度関数ではない。つまり、中心極限定理確率密度関数については何も教えてくれないので、累積分布関数についてしか議論できないのである。

積分布関数を微分してはダメか?

しかし、累積分布関数は確率密度関数不定積分したものなのだから、一見するとどちらで議論しても大差ないような気がしてしまう。つまり、累積分布関数が正規分布のそれに近づくのならば、微分してやれば確率密度関数が得られるので、確率密度関数正規分布に近づいていくのではないのか?

もしそうだとすると、分散が有限値を取る任意の確率分布の密度関数を無限に畳み込んでやると、それは正規分布の密度関数に近づいていくと言えそうだ。私は先日この事実に思い至り、これはすごいことに気が付いたと喜んだ。

しかし、残念ながらこれは常に正しいとは言えない。Wikipedia[1]の英語版を見ると以下のような記述がある。

Thus the central limit theorem can be interpreted as a statement about the properties of density functions under convolution: the convolution of a number of density functions tends to the normal density as the number of density functions increases without bound. These theorems require stronger hypotheses than the forms of the central limit theorem given above. 

つまり、確率密度関数をたくさん畳み込んで正規分布の密度関数に近づくためには、中心極限定理よりも強い仮定が必要だと書かれている。一体なぜそんなことになってしまうのだろうか?

残念ながら、現状ではこの疑問の答えを真に理解するまでには至っていない。この問題にはlocal limit theorem[6]なるものが関係していることまでは分かったが、一朝一夕では理解できなさそうな沼が広がっていることに気付いたので、今回はここで諦めることにした。

ただし、[6]によると密度関数の収束列の中に有界な項が存在する場合は密度関数も正規分布に収束するというような記載がある。そのため、応用上よく扱うような密度関数であれば正規分布に近づいていくと思って差し支えないのだろう。

まとめ

以上、中心極限定理と確率分布族の再生性の関係性について述べた。結論としては、再生性を持つ分布族に属する確率分布に従う確率変数をたくさん足してやると、それはあくまで元の分布族に属する確率分布に従う。そうでありながら、それは同時に正規分布に近づいていくということであった。

また、確率密度関数と累積分布関数に関する微妙な問題について調べた。詳細な理解にまでは至らなかったが、両者の区別を曖昧にしたまま議論を進めると痛い目にあうということが分かった。

今回はネットで調べた情報を中心に記事を書いてみたが、やはり専門書が手元にないとしんどいし、確率論は奥が深くて難しい。いずれ何か本を手にとってじっくりと勉強したい。