その仮説検定、本当に大丈夫ですか？〜 2つの誤りをコントロールしよう

統計検定2級に合格しました

最近、統計検定2級に合格した。素直に嬉しい。2級は大学教養レベルの内容ではあるが、それらを良く理解していないと合格できないので、良い勉強になった。

余談だが、以下のサイトは2級合格に必要な情報が網羅されており、大変参考になった。

統計検定2級では、とにかく区間推定や仮説検定の問題がたくさん出る。その勉強の中で、仮説検定について私が今までよく理解出来ていなかった点があることに気づいたため、本稿ではその気付きについて紹介したい。

棄却できない帰無仮説の問題

状況設定

ある正規母集団から $n$ 個のサンプルを抽出し、標本平均 $\overline{X}$ の値を元に母平均 $\mu$ の値について仮説検定をすることを考えてみよう。帰無仮説は「 $\mu = 0$ 」とし、対立仮説は「 $\mu \ne 0$ 」とする。これには両側検定を用いるのが適切である。

以後、有意水準はすべて5%固定で考える。また、議論をメインの話題にフォーカスするため、母分散 $\sigma^2$ は既知とする。つまり、t分布は使わない。さらに、簡単のため $\sigma = 1$ の場合のみを考えることにする*1。

もし帰無仮説が正しい場合、 $\overline{X}$ は正規分布 $N(0, \sigma^2/n)$ に従うはずである。そのため、帰無仮説の採択域は以下のようになる。

$\displaystyle{ - Z_{0.975} \frac{\sigma}{\sqrt{n}} < \overline{X} < Z_{0.025} \frac{\sigma}{\sqrt{n}} }$

ただし、 $Z_{\alpha}$ は標準正規分布 $N(0, 1)$ の上側 $100\alpha$ %点を表す。

もしサンプル数が少なく、例えば $n=3$ だった場合、採択域は以下のようになる。

$\displaystyle{ - 1.13 < \overline{X} < 1.13 }$

ここで、実はこの正規母集団の真の分布が $N(1, \sigma^2)$ だったとしよう。つまり、帰無仮説 $\mu = 0$ は誤りだったというわけである。このとき、母平均 $\mu = 1$ を中心に $\overline{X}$ が分布するわけだが、 $n=3$ のケースだと $\mu$ が帰無仮説の採択域の中に入ってしまっているので、これだと結構な確率で帰無仮説が棄却できないことになる。つまり、本当は棄却しなければならない帰無仮説を棄却できず、判断を誤ることになる。

何が問題か？

どうしてこのようなことになってしまうのだろうか？清く正しく仮説検定をやったはずなのに、どうして判断を誤ってしまうのだろうか？それはずばり、仮定した分布と真の分布の切り分けを付けるための分解能が足りなかったことが原因である。

仮定した母平均に対して真の母平均がある程度近くにある場合、サンプル数が足りないと $\overline{X}$ の分散が大きくなってしまい、2つの確率分布は大きくオーバーラップする。その結果、帰無仮説が容易には棄却できないということになってしまうのである。サンプル数が多くなれば $\overline{X}$ の分散が小さくなっていくため、仮定した分布と真の分布がはっきりと別れるようになり、仮説検定により区別が付くようになる。

第一種の誤りと第二種の誤り

実は、このような概念は統計学の世界においては普通に知られていることである。それが仮説検定における「第一種の誤り」と「第二種の誤り」というものである。それぞれ以下のような意味で使われる。

第一種の誤り：帰無仮説が正しいのに誤って棄却すること
第二種の誤り：帰無仮説が間違っているのに誤って棄却しないこと

今回のケースで言うと、サンプル数が少ない場合、第二種の誤りを起こす確率が高くなってしまうということである。以下では第一種・第二種の誤りを起こす確率をそれぞれ $\alpha, \beta$ と表記する。

仮説検定では、第一種の誤りの許容範囲については、有意水準という形で明示的に指定する。今回は有意水準5%としているので、5%の確率で第一種の誤りが起こることは許容していることになる。それに対して、第二種の誤りについては明示的に述べられることがあまりないように思う。しかし、第二種の誤りの存在も認識して仮説検定のパラメータを選ばないと、仮説検定から有益な結果が得られなくなるので、どちらも意識してやる必要がある。

2つの誤りの関係

第一種・第二種の誤りをどちらも小さくすることが理想であるが、両者は一般的にトレードオフの関係にある。なぜなら、第一種の誤りを減らすということは「間違って帰無仮説を棄却したくない」ということになるのに対して、第二種の誤りを減らすということは「間違って帰無仮説を採択したくない」ということに等しく、両者が相反するからである。

では、全く打つ手が無いのかというと、そうではない。大切なのは、まず第一種の誤りと第二種の誤りの存在を正しく認識し、それらがどういうパラメータに影響を受けるかを知った上で、自分の考えている問題設定において、2つの誤りが許容できる範囲内に収まるようにコントロールすることである。これにより、仮説検定の有益性を格段に向上することができる。

2つの誤りの可視化

ここまで文章だけで説明してしまったので、第一種の誤りと第二種の誤りを可視化してみよう。可視化にはDesmosというサービスを利用した。状況設定として、仮説検定で $N(0, 1)$ を仮定したが、真の分布は $N(1, 1)$ だったというケースについてグラフを描いた。

www.desmos.com

赤線が仮定した分布、青線が真の分布である。また、赤色部分の面積が $\alpha$ 、青色部分の面積が $\beta$ の値を表している。 $\alpha$ は固定で5%としている。これを見ると、サンプル数を増やすことでグラフがシャープになって2つの分布のオーバーラップが小さくなり、 $\beta$ が減っていく様子が見て取れる。

俺の考えた最強の仮説検定

以上を踏まえて、正しい仮説検定のステップについて考えてみたいと思う。

それぞれの誤り確率を左右する要因を押さえる

第一種・第二種の誤りの発生確率を左右する要因として代表的なものを以下にまとめる。

要因	第一種の誤りへの影響	第二種の誤りへの影響
有意水準 $\alpha$	↑	↓
サンプル数 $n$	影響なし	↓
母分散 $\sigma^2$	影響なし	↑

表の見方について補足する。要因の列に示した値が増加したときに、第一種・第二種の誤りが増えるか減るかを上下の矢印で示した。例えば、有意水準 $\alpha$ が大きくなれば、許容する第一種の誤り確率が大きくなるため、第一種の誤りは増加する。

許容される誤り確率を設定しよう

次に、第一種・第二種の誤りがどれくらいの確率で発生することを許容できるかを考えよう。一般的には $\alpha = 0.05, \beta = 0.2$ くらいが目安のようだが、これはもちろん仮説検定毎に異なる。例えば、第一種の誤りを起こすことが人命に関わるようなケースでは、第一種の誤りを極力起こしたくないというようなことがあるだろう。

真の分布を推定しよう

これが仮説検定の泣き所である。実は、当然だが第二種の誤りは真の分布が分からないと分からない。しかし、そもそも真の分布が分からないから仮説検定をやっているわけなので、これは矛盾している。しかし、仮説検定は残念ながらこの矛盾を常に孕んだ状態で行わなければならない宿命にある。

この問題に対する私の考えを書いておく。真の分布は究極的には分からないので、何らかの推定をするしかない。これにはいろいろなやり方があるはずである。

例えば、製造したビールの容量が本当に500mlと言えるかを仮説検定するような場合、過去に誤って480mlだったことがあるというデータがあれば、平均が480mlの正規分布を真の分布として $\beta$ を求める手はあるだろう。

他には、例えば学習塾のとある講座を受けることで試験の点が上がったかどうかを仮説検定する場合について、保護者の皆様が5点以上の点数向上を求めているという期待される効果量があったとする。

このケースでは、「実は講座の効果として真に点数が2点向上する効果があった」というような場合、第二種の誤りを犯しても犯さなくても、保護者の期待を裏切っていることには変わりない。そのため、2点差を切り分けられる分解能を得るためにサンプルをたくさん用意することには、コストがかかるだけで意味がない。

一方、本当は点数が5点向上する効果があったのに第二種の誤りを犯すということは避けたい。そのため、受講者の平均点が5点向上した場合を元に真の分布を仮定し、 $\beta$ を算出するのが良いだろう。

このように、過去のデータ、求められている効果、及び専門家の知見などから、真の分布を仮定してやるのがよいと考えられる。

パラメータを決定しよう

最後に、先程決めた $\alpha, \beta$ の値を元に、仮説検定のための各種パラメータを設定する。母平均の推定の例で言えば、コントロールできるパラメータは有意水準 $\alpha$ とサンプル数 $n$ になる。 $\alpha$ は前のステップで既に決めてあるので、あとは求める $\beta$ の条件を満たすように $n$ を決定すればよい。例えば、先程の状況設定において $\alpha = 0.05, \beta = 0.2$ であれば、 $n \ge 8$ とすればよい。詳細は先程張ったDesmosのリンク先にて確かめてみて欲しい。