中心極限定理と確率分布族の再生性
確率・統計の分野における定理と言えばいろいろあるが、中でも中心極限定理は有名だろう。ざっくり言えば、中心極限定理とはある確率分布に従う独立な確率変数をたくさん取り出すと、それらの和が従う確率分布は正規分布に近づいていくというものである。
一方で、確率分布の中には再生性と呼ばれる性質を持つものがある。これは、ある確率分布族に属する2つの確率分布に対して、それぞれに従う2つの独立な確率変数の和を取ると、その和が従う確率分布は再び元の確率分布族に属するというものである。
これらは一見すると矛盾しているようにも思える。なぜなら、一方は和の確率分布が正規分布になると言い、もう一方は和の確率分布は元の分布と同じ分布族に属すると主張しているからである。
そこで本稿では両者の間にどのような関係があり、どうすれば両者を矛盾なく解釈できるかについて考えてみる。
中心極限定理
とおくと、
つまり、i.i.d. r.v. 列の和を標準化すると、期待値 0, 分散 1 の正規分布 N(0, 1) に分布収束する。
記事[1]の英語版には記載があるのだが、定理成立のためには分散が有限の値を取ることも必要なので注意されたい。
確率分布族の再生性
最初の疑問への答え
ここで、冒頭で掲げた疑問の答えについて考えてみよう。を再生性を持つ分布族とする。また、確率分布の確率密度関数をfとする。Fに従う独立な確率変数の列の総和が従う確率分布の密度関数は (fをn個畳み込み) となる。念のため述べておくが、畳み込み演算は結合法則が成り立つので、演算順序を括弧で明示せずとも結果は一意に定まる[3]。
の再生性によりが表す確率分布はに属する。一方、中心極限定理によりのときその累積分布関数は正規分布に近づいていく。つまり、最初の疑問への答えとしては「確率変数の和の累積分布関数はでもあくまで分布族に従うが、同時に正規分布の累積分布関数に限りなく近づいていく」ということである。つまり、再生性と中心極限定理の主張は (当たり前だが) どちらも同時に正しいのである。
なぜ累積分布関数?
ここまでの議論では何かと結論を累積分布関数に結びつけてきた。確率・統計素人の私からすると確率密度関数で考えた方が簡単そうに思えるわけだが、なぜ執拗に累積分布関数に言及する必要があったのか?その理由は先ほど引用した中心極限定理のstatementをよく見ると分かる。重要な部分を抜き出してみる。
i.i.d. r.v. 列の和を標準化すると、期待値 0, 分散 1 の正規分布 N(0, 1) に分布収束する。
先ほどはさらりと流したが、ここに登場する「分布収束」という概念が肝である。Wikipedia[5]より定義を引用する。
が、Fが連続であるような全ての数に対して成立することを言う。ここで、 およびFはそれぞれ確率変数およびXの累積分布関数である。
この定義を見ると分かるように、中心極限定理において正規分布に近づいていくのは累積分布関数であり、確率密度関数ではない。つまり、中心極限定理は確率密度関数については何も教えてくれないので、累積分布関数についてしか議論できないのである。
累積分布関数を微分してはダメか?
しかし、累積分布関数は確率密度関数を不定積分したものなのだから、一見するとどちらで議論しても大差ないような気がしてしまう。つまり、累積分布関数が正規分布のそれに近づくのならば、微分してやれば確率密度関数が得られるので、確率密度関数も正規分布に近づいていくのではないのか?
もしそうだとすると、分散が有限値を取る任意の確率分布の密度関数を無限に畳み込んでやると、それは正規分布の密度関数に近づいていくと言えそうだ。私は先日この事実に思い至り、これはすごいことに気が付いたと喜んだ。
しかし、残念ながらこれは常に正しいとは言えない。Wikipedia[1]の英語版を見ると以下のような記述がある。
Thus the central limit theorem can be interpreted as a statement about the properties of density functions under convolution: the convolution of a number of density functions tends to the normal density as the number of density functions increases without bound. These theorems require stronger hypotheses than the forms of the central limit theorem given above.
つまり、確率密度関数をたくさん畳み込んで正規分布の密度関数に近づくためには、中心極限定理よりも強い仮定が必要だと書かれている。一体なぜそんなことになってしまうのだろうか?
残念ながら、現状ではこの疑問の答えを真に理解するまでには至っていない。この問題にはlocal limit theorem[6]なるものが関係していることまでは分かったが、一朝一夕では理解できなさそうな沼が広がっていることに気付いたので、今回はここで諦めることにした。
ただし、[6]によると密度関数の収束列の中に有界な項が存在する場合は密度関数も正規分布に収束するというような記載がある。そのため、応用上よく扱うような密度関数であれば正規分布に近づいていくと思って差し支えないのだろう。
まとめ
以上、中心極限定理と確率分布族の再生性の関係性について述べた。結論としては、再生性を持つ分布族に属する確率分布に従う確率変数をたくさん足してやると、それはあくまで元の分布族に属する確率分布に従う。そうでありながら、それは同時に正規分布に近づいていくということであった。
また、確率密度関数と累積分布関数に関する微妙な問題について調べた。詳細な理解にまでは至らなかったが、両者の区別を曖昧にしたまま議論を進めると痛い目にあうということが分かった。
今回はネットで調べた情報を中心に記事を書いてみたが、やはり専門書が手元にないとしんどいし、確率論は奥が深くて難しい。いずれ何か本を手にとってじっくりと勉強したい。
参考
[1] 中心極限定理 - Wikipedia
[2] 再生性 - Wikipedia
[3] 畳み込み - Wikipedia
[4]
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る
[6] Local limit theorems - Encyclopedia of Mathematics