確率分布族の再生性まとめ

確率分布はたくさんある

統計学を勉強していると、世の中には本当にたくさんの確率分布が存在する事に気付く。現実世界の現象に統計学を応用しようと考えるとき、その現象にはどのような確率分布が良く当てはまるのかを考えたくなる時がある。そのためには、数ある確率分布がそれぞれどういう現象をうまく表現できるかということを知っておく必要がある。

そこで、本稿では基本的な確率分布の特徴についてまとめてみ・・・ようと思ったのだが、途中までやりかかったところですでに素晴らしいまとめ[1]が存在することに気づいた。

劣化コピーを作っても意味がないので、ここでは[1]に記載が少ない再生性に関する事項についてのみまとめてみる。ただし、さすがに[1]に記載されている全ての分布について調べるのはしんどいので、ここでは私が個人的に興味を持った分布についてのみ紹介する。詳細は[2][3][4][5][6]等を参照のこと。

離散型

名称 再生性  X_i\ (i=1,\ 2)  X_1 + X_2
二項分布 有り  Bi(n_i,\ p)  Bi(n_1 + n_2,\ p)
ポアソン分布 有り  Po(\lambda_i)  Po(\lambda_1 + \lambda_2)

連続型

名称 再生性  X_i\ (i=1,\ 2)  X_1 + X_2
正規分布 有り  N(\mu_i,\ \sigma_i^2)  N(\mu_1 + \mu_2,\ \sigma_1^2 + \sigma_2^2)
対数正規分布 有り  \Lambda(\mu_i,\ \sigma_i^2)  \Lambda(\mu_1 + \mu_2,\ \sigma_1^2 + \sigma_2^2)
指数分布 無し - -
ガンマ分布 有り  Ga(\alpha_i,\ \lambda)  Ga(\alpha_1 + \alpha_2,\ \lambda)
コーシー分布 有り  Ca(\alpha_i,\ \beta_i)  Ca(\alpha_1+\alpha_2,\ \beta_1+\beta_2)
 \chi^2分布 有り  \chi^2(m_1)  \chi^2(m_1 + m_2)
t分布 無し? - -

まとめ

調べてみると、意外と多くの確率分布族が再生性を持つことが分かった。世の中うまくできているものだ。

今回は[1]を見つけたことでブログを書くモチベーションが下がってしまったが、こういうまとめが存在すること自体は大変ありがたい。困ったときに活用させてもらおう。

中心極限定理と確率分布族の再生性

確率・統計の分野における定理と言えばいろいろあるが、中でも中心極限定理は有名だろう。ざっくり言えば、中心極限定理とはある確率分布に従う独立な確率変数をたくさん取り出すと、それらの和が従う確率分布は正規分布に近づいていくというものである。

一方で、確率分布の中には再生性と呼ばれる性質を持つものがある。これは、ある確率分布族に属する2つの確率分布に対して、それぞれに従う2つの独立な確率変数の和を取ると、その和が従う確率分布は再び元の確率分布族に属するというものである。

これらは一見すると矛盾しているようにも思える。なぜなら、一方は和の確率分布が正規分布になると言い、もう一方は和の確率分布は元の分布と同じ分布族に属すると主張しているからである。

そこで本稿では両者の間にどのような関係があり、どうすれば両者を矛盾なく解釈できるかについて考えてみる。

中心極限定理

中心極限定理の内容をWikipedia[1]より引用する。

期待値  \muと分散  \sigma^2 を持つ独立同分布 ("i.i.d.") に従う確率変数 ("r.v.") 列  X_1,\ X_2, \ldotsに対し、
 \displaystyle{
S_{n}:=\sum _{k=1}^{n}X_{k}
}
とおくと、
 \displaystyle{
P{\Big (}{\frac {S_{n}-n\mu }{{\sqrt {n}}\sigma }}\leq \alpha {\Big )}\to {\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\alpha }e^{-{\frac {x^{2}}{2}}}dx\qquad (n\to \infty ).
}
つまり、i.i.d. r.v. 列の和を標準化すると、期待値 0, 分散 1 の正規分布 N(0, 1) に分布収束する。

記事[1]の英語版には記載があるのだが、定理成立のためには分散が有限の値を取ることも必要なので注意されたい。

確率分布族の再生性

定義

続いて、再生性の定義をWikipedia[2]より引用する。

確率分布族の再生性
分布族 \mathbb{F}を考える。

任意の確率分布 F_{1},\ F_{2} \in \mathbb{F}に対して、 F_{i}に従う互いに独立な確率変数を X_{i}とおく (i=1, 2) 。これを X_{i}\sim F_{i}と書く(以下同様)。

このとき、 X_{1}+X_{2}の確率分布Fが F\in \mathbb {F}を満たすならば、分布族 \mathbb{F}は再生性を持つという。

ここで、分布族 \mathbb{F}としては、例えば正規分布の族や二項分布の族などをイメージしておくと良いだろう。実際、これらの分布族は再生性を持つことが知られている[2]。

確率分布族に再生性がある場合、3つ以上の確率変数の和についても同じ分布族に属する確率分布に従う。

確率密度関数の畳み込み

定理の中で登場した確率分布 F_{1},\ F_{2},\ F確率密度関数をそれぞれ f_{1},\ f_{2},\ fとすると、fは具体的に f = f_{1} * f_{2}と表すことができる。ここで*は畳み込み演算を表す。畳み込み演算は (連続的な値を扱う場合) 以下のように定義される[3]。

\displaystyle{
(f * g)(x) = \int^{\infty}_{-\infty} f(t)g(x-t) dt
}

最初の疑問への答え

ここで、冒頭で掲げた疑問の答えについて考えてみよう。 \mathbb{F}を再生性を持つ分布族とする。また、確率分布 F \in \mathbb{F}確率密度関数をfとする。Fに従う独立な確率変数の列 X_1,\ X_2, \cdots ,\ X_nの総和 S_n = X_1 + X_2 + \cdots + X_nが従う確率分布の密度関数は f * f * \cdots * f (fをn個畳み込み) となる。念のため述べておくが、畳み込み演算は結合法則が成り立つので、演算順序を括弧で明示せずとも結果は一意に定まる[3]。

 \mathbb{F}の再生性により f * f * \cdots * fが表す確率分布は \mathbb{F}に属する。一方、中心極限定理により n \to \inftyのときその累積分布関数は正規分布に近づいていく。つまり、最初の疑問への答えとしては「確率変数の和の累積分布関数は n \to \inftyでもあくまで分布族 \mathbb{F}に従うが、同時に正規分布の累積分布関数に限りなく近づいていく」ということである。つまり、再生性と中心極限定理の主張は (当たり前だが) どちらも同時に正しいのである。

例として二項分布について考えてみよう。確率変数 X_1,\ X_2,\ \cdots ,\ X_nは互いに独立で、かつ二項分布 \mathrm{B}(m,\ p)に従うとすると、これらの総和 X_1 + X_2 +\ \cdots + X_nは二項分布 \mathrm{B}(nm,\ p)に従う。nがどれだけ大きくなってもこれが二項分布であることに変わりはないが、一方でだんだんと正規分布にも近づいていくのである。

実用上、nが大きくなると \mathrm{B}(nm,\ p)を計算するのは骨が折れる。そのため、近似的に正規分布に従うと考えて、計算を簡略化できたりするようだ[4]。

なぜ累積分布関数?

ここまでの議論では何かと結論を累積分布関数に結びつけてきた。確率・統計素人の私からすると確率密度関数で考えた方が簡単そうに思えるわけだが、なぜ執拗に累積分布関数に言及する必要があったのか?その理由は先ほど引用した中心極限定理のstatementをよく見ると分かる。重要な部分を抜き出してみる。

i.i.d. r.v. 列の和を標準化すると、期待値 0, 分散 1 の正規分布 N(0, 1) に分布収束する。

先ほどはさらりと流したが、ここに登場する「分布収束」という概念が肝である。Wikipedia[5]より定義を引用する。

分布収束
確率変数の列 X_{1},\ X_{2},\ldotsが、ある確率変数Xへと分布収束する、あるいは弱収束あるいは法則収束(converge in law)するとは、
\displaystyle{
\lim _{n\to \infty }F_{n}(x)=F(x),
}
が、Fが連続であるような全ての数 x \in\mathbb{R}に対して成立することを言う。ここで、 F_{n} およびFはそれぞれ確率変数 X_{n}およびXの累積分布関数である。

この定義を見ると分かるように、中心極限定理において正規分布に近づいていくのは累積分布関数であり、確率密度関数ではない。つまり、中心極限定理確率密度関数については何も教えてくれないので、累積分布関数についてしか議論できないのである。

積分布関数を微分してはダメか?

しかし、累積分布関数は確率密度関数不定積分したものなのだから、一見するとどちらで議論しても大差ないような気がしてしまう。つまり、累積分布関数が正規分布のそれに近づくのならば、微分してやれば確率密度関数が得られるので、確率密度関数正規分布に近づいていくのではないのか?

もしそうだとすると、分散が有限値を取る任意の確率分布の密度関数を無限に畳み込んでやると、それは正規分布の密度関数に近づいていくと言えそうだ。私は先日この事実に思い至り、これはすごいことに気が付いたと喜んだ。

しかし、残念ながらこれは常に正しいとは言えない。Wikipedia[1]の英語版を見ると以下のような記述がある。

Thus the central limit theorem can be interpreted as a statement about the properties of density functions under convolution: the convolution of a number of density functions tends to the normal density as the number of density functions increases without bound. These theorems require stronger hypotheses than the forms of the central limit theorem given above. 

つまり、確率密度関数をたくさん畳み込んで正規分布の密度関数に近づくためには、中心極限定理よりも強い仮定が必要だと書かれている。一体なぜそんなことになってしまうのだろうか?

残念ながら、現状ではこの疑問の答えを真に理解するまでには至っていない。この問題にはlocal limit theorem[6]なるものが関係していることまでは分かったが、一朝一夕では理解できなさそうな沼が広がっていることに気付いたので、今回はここで諦めることにした。

ただし、[6]によると密度関数の収束列の中に有界な項が存在する場合は密度関数も正規分布に収束するというような記載がある。そのため、応用上よく扱うような密度関数であれば正規分布に近づいていくと思って差し支えないのだろう。

まとめ

以上、中心極限定理と確率分布族の再生性の関係性について述べた。結論としては、再生性を持つ分布族に属する確率分布に従う確率変数をたくさん足してやると、それはあくまで元の分布族に属する確率分布に従う。そうでありながら、それは同時に正規分布に近づいていくということであった。

また、確率密度関数と累積分布関数に関する微妙な問題について調べた。詳細な理解にまでは至らなかったが、両者の区別を曖昧にしたまま議論を進めると痛い目にあうということが分かった。

今回はネットで調べた情報を中心に記事を書いてみたが、やはり専門書が手元にないとしんどいし、確率論は奥が深くて難しい。いずれ何か本を手にとってじっくりと勉強したい。

モーメント母関数とTaylor展開の項別微分

最近、統計学を勉強している。統計学における重要な概念の1つとしてモーメント母関数がある。モーメント母関数とは簡単な計算を施すことで次々と重要な統計量が取得できる便利関数であるが、これは指数関数 f(x) = e^xのTaylor展開と関係がある。本稿ではこれについて疑問に思ったことと、その回答について書いてみる。

なお、あらかじめ述べておくが、本稿は統計学の話と見せかけて、内容はほとんど解析学の話である。

モーメント母関数

定義

まず、モーメントの定義を以下に示す[1]。

モーメント
一般に
 \displaystyle{
\mu_r = E(X^r)
}
を, Xの (原点のまわりの) r次のモーメント moment, または積率といい,
 \displaystyle{
\mu'_r = E(X - \mu)^r
} (ただし、 \mu = E(X))
を, Xの期待値 (平均) のまわりのr次のモーメンという.

本[1]は記法が少々分かりづらいが、Xの期待値のまわりのモーメントの式は恐らく \mu'_r = E\{(X - \mu)^r\}を意図しているものと思われる。

続いてモーメント母関数の定義を以下に示す[1]。

モーメント母関数
すべての次数のモーメントを生成するモーメント母関数 moment generating function を
 \displaystyle{
M_X(t) = E(e^{tX})
}
と定義する. その計算は
 \displaystyle{
M_X(t) = \sum_x e^{tx} f(x)
} (離散型)
 \displaystyle{
M_X(t) = \int_{-\infty}^{\infty} e^{tx} f(x)dx
} (連続型)
による.

モーメント母関数からモーメントを取得する

モーメント母関数を使うと面倒な計算をすることなく任意の次数のモーメントを取得することができる。そのためにはモーメント母関数をr回微分して0を代入すれば良い。すなわち、以下の式が成立する。

 \displaystyle{
\mu_r = M^{(r)}_X(0)
}

なぜこうなるのか説明する。まず、 e^{x}のTaylor展開に x = tXを代入すると以下のようになる。

 \displaystyle{
e^{tX} = \sum_{n=0}^{\infty} \frac{(tX)^n}{n!}
}

さらに両辺の期待値を取ると以下のようになる。

 \displaystyle{
\begin{eqnarray}
M_X(t) &=& E \left(\sum_{n=0}^{\infty} \frac{(tX)^n}{n!} \right) \\
             &=& \sum_{n=0}^{\infty} E \left( \frac{(tX)^n}{n!} \right) \\
             &=& \sum_{n=0}^{\infty} \frac{t^n}{n!} E (X^n) \\
             &=& \sum_{n=0}^{\infty} \frac{\mu_n}{n!} t^n
\end{eqnarray}
}

2つ目の等号は期待値の加法性による*1。上式の両辺をr回微分してみる。

 \displaystyle{
\begin{eqnarray}
M^{(r)}_X(t) &=& \left(\sum_{n=0}^{\infty} \frac{\mu_n}{n!} t^n \right)^{(r)} \\
                      &=& \sum_{n=0}^{\infty} \left(\frac{\mu_n}{n!} t^n \right)^{(r)} \\
                      &=& \sum_{n=0}^{\infty} \frac{\mu_{n+r}}{n!} t^n
\end{eqnarray}
}

あとは t = 0を代入すれば求める式が得られる。

Taylor展開と項別微分

先程の説明の中で、さらりと項別微分を行っていたことにお気づきだろうか?よく知られているように、無限級数はいつでも気軽に項別微分出来るものではなく、常にそれが可能かどうかチェックする必要がある。

ここで私が疑問に思ったのは、Taylor展開によって得られた無限級数はいつでも項別微分可能か?ということである。以下でこれについて調べていこう。

級数

Taylor展開によって得られる無限級数は、いわゆる冪級数の形をしている。冪級数とは以下のような形をした級数である[2]。

 \displaystyle{
\sum_{n=0}^{\infty} a_n (x - \alpha)^n
}

ただし、 x - \alphaにxを代入してもこの後の議論はほとんど変わらないので、ここでは以下のような冪級数のみを考える。

 \displaystyle{
\sum_{n=0}^{\infty} a_n x^n
}

項別微分可能条件

一般の無限級数に対する項別微分可能条件を以下に示す[2]。

項別微分可能条件
 \sum a_n(x) = s(x)が収束し,  a_n(x)微分可能,  a_n'(x)が連続で,  \sum a_n'(x) = t(x)が一様に収束するならば,
 \displaystyle{
s'(x) = t(x)
}
すなわち s(x) = \sum a_n(x)が項別に微分される:
 \displaystyle{
\frac{d}{dx} \sum a_n(x) = \sum \frac{d}{dx} a_n(x)
}

Taylor展開によって得られる冪級数の場合、xが収束半径内に収まってさえいれば収束は保証される。また、各項は微分可能であり、各項の導関数も当然連続である。そのため、項別微分可能であるかどうかを知るためには、以下の2点について調べれば良い。

  • 各項の導関数の無限級数、すなわち \sum_{n=1}^{\infty} n a_n x^{n-1}の収束半径は、もとの級数 \sum_{n=0}^{\infty} a_n x^nの収束半径とどういう関係にあるか?
  •  \sum_{n=1}^{\infty} n a_n x^{n-1}は収束半径内において一様収束するか?

以下でそれぞれについて調べてみよう。

無限級数の収束半径

無限級数の収束半径は以下で与えられる[2]。

Cauchy-Hadamardの定理
級数 \sum a_n x^nの収束半径rは次の値を有する:
 \displaystyle{
\frac{1}{r} = \varlimsup_{n \to \infty} \sqrt[n]{a_n}
}

 n \to \inftyのとき \sqrt[n]{n} \to 1となるため、 \sum_{n=0}^{\infty} a_n x^n \sum_{n=1}^{\infty} n a_n x^{n-1}の収束半径は一致する。

級数の一様収束条件

級数の一様収束性を考える上では、次のAbelの定理が有効である。

Abelの定理
もしも巾級数 \sum a_n x^n x=x_0なるとき収束するならば,  |x| < |x_0|なるxのすべての値に関して絶対収束し, また領域 |x| < |x_0|に含まれる任意の閉区域において一様に収束する.

ここでちょっとした疑問が生じる。収束半径rに対して、xが収束する区間はよく |x| < rというように開区間として与えられる。一方、上の定理では閉区間での一様収束性を述べており、この定理をどのように適用すれば良いか分かりづらい。この点について少し説明してみる。

 \sum_{n=1}^{\infty} n a_n x^{n-1}の収束半径をrとする。また、 \epsilonをrより十分小さい正の数であるとする。一様収束とは、ざっくり言えばある区間において関数値があらゆるxに対して同じように収束していく様子を表す。そのため、ある1つの点において一様収束を考える意味はなく、必ず区間について考える必要がある。

一様収束を考える区間として、ここでは [-r + \epsilon,\ r - \epsilon]に着目してみよう。収束半径はrなので、 x = \frac{(r - \epsilon) + r}{2}の点において \sum_{n=1}^{\infty} n a_n x^{n-1}は収束する。よってAbelの定理により |x| < \frac{(r - \epsilon) + r}{2}に含まれる任意の閉区間において \sum_{n=1}^{\infty} n a_n x^{n-1}は一様収束する。特に、 [-r + \epsilon,\ r - \epsilon]において一様収束する。 \epsilon \to 0の極限をを考えれば、結局 \sum_{n=1}^{\infty} n a_n x^{n-1}は収束半径内において一様収束すると言える。

なお、 r = \inftyの場合は若干証明が異なるが、考え方はほとんど一緒である。

以上により、Taylor展開によって得られる冪級数は何回でも項別微分できる事が分かった。

まとめ

本稿ではモーメント母関数に端を発し、Taylor展開によって得られる無限級数の項別微分可能性について述べた。結論として、そのような級数は何回でも項別微分出来ることが分かった。

分かっている人からしてみれば実に当たり前のことかも知れないが、私にしてみればこういう疑問を抱けたこと自体を嬉しく思う。こういう初歩的な事実に対しても常に懐疑的に見る気持ちを忘れずに、これからも数学を学んでいけると良い。

参考

[1]

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

[2]
解析概論 改訂第3版 軽装版

解析概論 改訂第3版 軽装版

*1:無限級数に対しても加法性がそのまま成立するかどうかは厳密に考える必要があると思われるが、本[1]ではあまり細かいことは書いていなかった。

幾何平均の使いどころ

「平均」と言えば、算術平均 (=相加平均) の他に幾何平均 (=相乗平均) があるということをご存知の方は多いだろう。算術平均の方は意味が理解しやすく、使われる場面も多いと思われる。一方で、幾何平均はその意味するところが分かりづらく、一体どんな場面で使うべきものなのか、不勉強な私はこれまで知らなかった。せいぜい、高校数学で相加・相乗平均の関係を計算に使ったりする程度で、幾何平均ならではの使いどころというのは理解していなかった。

最近、統計学の本[1]を読み直して幾何平均の使いどころに気づいたので、本稿ではそれを紹介したいと思う。

定義

幾何平均の定義を[1]より引用する。

幾何平均
正数 x_1,\ x_2,\ \cdots,\ x_nの幾何平均 geometric mean  x_G
\displaystyle{
x_G = \sqrt[n]{x_1 \cdot x_2 \cdot \ \cdots \ \cdot x_n}
}
で定義され, (以下省略)

幾何平均の意味

幾何平均の定義式を少し変形してみよう。

\displaystyle{
x_G^n = x_1 \cdot x_2 \cdot \ \cdots \ \cdot x_n
}

この式の意味は、平均を計算するのに使用されたn個の数を全て掛け合わせたものは、幾何平均のn乗に等しいということである。つまり幾何平均とは、互いに掛け合わせることに意味があるようなデータに対して、平均的にはどのような数を掛け合わせることに相当するかを示す指標と言える。

例 : 前年度との売上比率

ここまでの話だけ聞くと何だか当たり前のことのような気がしてしまう訳だが、この事実を真に理解するために、1つ例を見て頂きたい。

ある会社の売上高が、2015年度から2016年度にかけて10%増加、2016年度から2017年度にかけて5%増加、2017年度から2018年度にかけて3%増加したとする。この時、2015年度から2018年度にかけて、平均で毎年どれくらい売上が伸びたと言えるだろうか?

ここで試しに算術平均を計算すると以下のようになる。

 \displaystyle{
\frac{1.1 + 1.05 + 1.03}{3} = 1.06
}

つまり、平均で毎年6%売上が伸びたと言えそうに見える。しかし、実はこれは正しくない。まず、2015年度の売上を1としたとき、2018年度の売上は以下のように計算される。

 \displaystyle{
1.1 \times 1.05 \times 1.03 = 1.18965
}

一方、毎年6%売上が伸びたとして計算すると以下のようになる。

 \displaystyle{
1.06^3 = 1.191016
}

このように、売上比率に対して算術平均を使ってしまうと、元のデータを用いた場合と計算が合わなくなってしまうのである。

この理由は、ある2つの年度の間の売上比率を計算するには、その間の各年度における前年度との売上比率を掛け合わせる必要があるからである。つまり、前年度との売上比率は掛け合わせることに意味があるデータだからである。

このようなケースこそ幾何平均の出番である。今回のデータに対して幾何平均を計算すると以下のようになる。

 \displaystyle{
\sqrt[3]{1.1 \times 1.05 \times 1.03} \simeq 1.059595
}

これを3乗すると、当然だが2015年度の売上を1としたときの2018年度の売上に一致する。すなわち、売上比率に対しては算術平均ではなく幾何平均を使うのが妥当であると言える。

まとめ

以上、幾何平均を使うべきケースについて例を交えて説明した。ポイントとしては、幾何平均は掛け合わせることに意味のあるデータに対して使用するということであった。これでもう、平均を計算する際にどちらを使うべきかで迷うことはないだろう。

参考

[1]

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

5次方程式の解を巡る旅 〜5次方程式の可解性判定編〜

前回の記事で3次・4次方程式のresolventについて説明した。本稿ではここまでの内容を総括し、5次方程式の可解性判定について述べる。

5次方程式の可解性判定

5次方程式のresolvent

 \mathbb{Q}上の5次多項式 f(x) = x^5 + a_3 x^3 + a_2 x^2 + a_1 x + a_0に対して、方程式 f(x)=0の可解性について考える。議論の流れに大きな影響はないので、f(x)はmonicとしている。

f(x)を良く見ると x^4の項がない。実は任意の多項式は適当な変数変換を施すことで、いつでも最高次より1つ次数の小さい項を消す事ができる[1]。そのため、ここでは最初から4次の項はその変換によって消されたものとして扱う。

まずは3次・4次方程式の場合と同じように、5次方程式にもresolventを考えるところからやってみよう。少々恣意的であるが、位数20のFrobenius群 F_{20}の作用に対して不変となる式について考えてみる。これを自力で思い付くのは難易度が高いが、幸い先人が以下の2つの式を見つけてくれている[2][3]。

 \displaystyle{
\begin{eqnarray}
P_1 &=& x_1^2 x_2 x_5 + x_1^2 x_3 x_4 + x_2^2 x_1 x_3 + x_2^2 x_4 x_5 + x_3^2 x_1 x_5 \\
&&  + x_3^2 x_2 x_4 + x_4^2 x_1 x_2 + x_4^2 x_3 x_5 + x_5^2 x_1 x_4 + x_5^2 x_2 x_3 \\
Q_1 &=& (x_1 x_2 + x_2 x_3 + x_3 x_4 + x_4 x_5 + x_5 x_1 \\
&&- x_1 x_3 - x_3 x_5 - x_5 x_2 - x_2 x_4 - x_4 x_1)^2
\end{eqnarray}
}

ここで、私自身が悩んだポイントについて補足しておく。上記2つの式は様々な文献で見かけるが、これらの間の関係についてはあまり触れられることがない。実はresolvent invariantに適当な対称式を足したり掛けたりしても、resolvent invariantが持つ対称性に変化はない。そのため、resolvent invariantは無数に存在し、 P_1,\ Q_1はどちらもその中の1つに過ぎない。実際、 4P_1 - Q_1は対称式になっているようだ[4]*1

どちらで考えても同じなので、以下では P_1を利用して議論を進める。 P_1 S_5の元を作用させると異なる6つの式が得られる。 P_1以外の式を以下に示す[2]。

 \displaystyle{
\begin{eqnarray}
P_2 &=& (1\ 2\ 3)P_1 \\
P_3 &=& (1\ 3\ 2)P_1 \\
P_4 &=& (1\ 2)P_1 \\
P_5 &=& (2\ 3)P_1 \\
P_6 &=& (1\ 3)P_1 \\
\end{eqnarray}
}

そのため、resolvent equationは以下のようになる。

 \displaystyle{
(z - P_1)(z - P_2)\ \cdots \ (z - P_6) = 0
}

以下、上記resolvent equationの左辺を f_{20}(z)とおく。 f_{20}(z)には P_1 S_5を作用させて得られる変化のパターンを全て根に持たせてあるので、 f_{20}(z)の係数は対称式となる。そのため、f(x)の係数を用いて表す事ができる。

Resolventを用いた可解性判定

ここで困ったことがある。3次・4次方程式ではresolvent equationの方が次数が小さかったため、resolvent equationを解くことで元の方程式の解が得られた。しかし、5次方程式から得られたresolvent equationは6次方程式であり、次元が上がってしまっている。こんな式を得たところで、一体どうしたら良いのだろうか?

実は、ここで以下の強力な定理が火を吹く (ただし、本稿の文脈に合わせて記号等を微修正してある) [2]。

5次方程式の可解性判定
The irreducible quintic  f(x) = x^5 +a_3 x^3 +a_2 x^2 +a_1 x + a_0 \in \mathbb{Q}[x] is solvable by radicals if and only if the polynomial  f_{20}(z) has a rational root. If this is the case, the sextic  f_{20}(z) factors into the product of a linear polynomial and an irreducible quintic.

要するに、 f_{20}(z)がただ1つの有理数根を持てば、f(x)は可解になる。これにより、resolvent equationの根を全て求めることが出来ずとも、元の多項式が可解かどうか判定できる。

Galois群とresolventの関係

しかし、この定理だけ見せられても何だか天下り的というか、どういう理屈でこんな事が成り立つのか分からない。そのため、もう少し掘り下げてみよう。

まず、f(x)が可解というのは、 \mathbb{Q}からf(x)の最小分解体への拡大に対応するGalois群が可解群である事を意味する。以下ではこのGalois群を \mathrm{Gal}(f)と書く。 \mathbb{Q}上既約な5次方程式のGalois群のうち、可解なものは共役を除いて3つしかなく、そのうち位数最大のものはFrobenius群 F_{20}であった。しかも、他の2つは共に F_{20}の部分群である。

そのため、f(x)が可解であるとは、 \mathrm{Gal}(f) \subset F_{20}を意味する。と言いたいところだが、実際には F_{20}には自身を含めて6つの共役な群が存在するので、 \mathrm{Gal}(f)はそのどれかに含まれることになる。

そうなると、 \mathrm{Gal}(f) F_{20}の共役に含まれる条件が知りたくなる。それを定理の形で述べたものが以下である[5]。

Galois群とresolventの関係
If  \mathrm{Gal}(f) is conjugate (in G) to a subgroup of  H = \mathrm{Stab}_G(F), then  \mathrm{Res}_G(F, f) has a root in  \mathbb{Z}. Furthermore, if  \mathrm{Res}_G(F, f) has a simple root in  \mathbb{Z} then  \mathrm{Gal}(f) is conjugate to a subgroup of  H = \mathrm{Stab}_G(F).

ただし、引用した論文では整数係数の多項式について論じているため、何かと \mathbb{Z}が登場していることに注意されたい。ここは \mathbb{Q}と読み替えても良いだろう。

ここで、Fはn変数の多項式であり、f(x)の根を代入することでresolvent invariantの役割を果たすものである。また、Gは対称群 S _nの部分群、 \mathrm{Res}_G(F, f)は以下の式で定義される。

 \displaystyle{
\mathrm{Res}_G(F, f) = \prod_{\sigma \in G/H} \left(z - F(x_{\sigma(1)}, \cdots  , x_{\sigma(n)}) \right)
}

 \mathrm{Res}_G(F, f) = 0という方程式はresolvent equationの一般形となっている。

この定理はGに選択の余地があるが、今は G = S_nのケースだけ考えれば十分である。簡易版の定理を以下に示す。

Galois群とresolventの関係 (簡易版)
If  \mathrm{Gal}(f) is conjugate to a subgroup of  H = \mathrm{Stab}_{S_n}(F), then  \mathrm{Res}_{S_n}(F, f) has a root in  \mathbb{Z}. Furthermore, if  \mathrm{Res}_{S_n}(F, f) has a simple root in  \mathbb{Z} then  \mathrm{Gal}(f) is conjugate to a subgroup of  H = \mathrm{Stab}_{S_n}(F).

上記定理のうち特に後半が重要で、これによってGalois群の可能性を絞り込む事ができる。すなわち、 S_nのある部分群Hに対するresolvent invariantを見つけられれば、まずresolvent equationが得られる。そして、それが有理数根を持つかどうかを調べることで、 \mathrm{Gal}(f)がH、もしくはその共役な部分群に含まれるかどうかが分かるのである。最初の定理が述べていたのはまさにこのGalois群の絞り込みの一例なのである。

可解性判定の例

実際に可解性判定をするためには f_{20}(z)の係数を求める必要があるが、幸い[2]に具体的な式が記載されている。いくつか計算してみよう。

例1:  f(x) = x^5 + 4x^2 - 2

このとき、resolvent equationは以下のようになる。

 \displaystyle{
f_{20}(z) = z^6 + 400 z^4 - 512 z^3 + 40000 z^2 + 68784 z + 65536
}

これは \mathbb{Q}上既約なので、f(x)は可解ではない。

例2:  f(x) = x^5 - 5x^3 + 5x + 3

この例は[6]を参考にさせて頂いた。このとき、resolvent equationは以下のようになる。

 \displaystyle{
f_{20}(z) = z^6 + 40 z^5 + 250 z^4 - 10625  z^3 - 146875 z^2 + 493750 z + 12875000
}

これは以下のように因数分解できる。

 \displaystyle{
f_{20}(z) = (z - 10)(z^5 + 50 z^4 + 750  z^3 - 3125 z^2 - 178125 z + 1287500)
}

有理数根をただ1つ持つので、f(x)は可解である。

おまけ

交代群と判別式

ここまでの議論で5次方程式の可解性を判定することができた。しかし、これだけではf(x)のGalois群が F_{20}に含まれるかどうかが分かるだけである。もっと問題を広げて、f(x)のGalois群を決定したいと思ったらどうすれば良いだろうか?

今の時点で分かっていることを少し言い換えると、Galois群が \{S_{5},\ A_{5}\}、または \{F_{20},\ D_{5},\ C_{5}\}のどちらに属するかを判定できたと言える。厳密にはGalois群はこれらと共役な部分群である可能性もあるが、共役というのは根への添字の付け方による変化に過ぎないので、ここでは共役は同一視する。

それぞれをさらに分解するために、 D_{5},\ C_{5} \subset A_{5}という事実に着目する。つまり、Galois群が A_{5}に含まれるかどうかが判定できれば、さらに可能性を絞り込めるのである。

そのためにはやはり上で紹介した定理を使うわけだが、定理を適用するには A_{5}の作用で不変となるresolvent invariantを見つける必要がある。実は判別式と呼ばれる非常に有名な式がこれに関係している。判別式の定義を以下に示す[7]。

差積と判別式
(1)  \delta(x) = \prod_{i < j} (x_i - x_j) x = (x_1, \cdots , x_n)の差積という.
(2)  \Delta(x) = \delta(x)^2 x = (x_1, \cdots , x_n)の判別式という.

ただし、これはmonicの場合の式のようだ。最高次の係数が1でない場合の式はWikipedia[8]などを参照されたい。

ここで、差積 \delta A_{5}のresolvent invariantになっている。 \delta S_{5}の元を作用させると \deltaまたは -\deltaのどちらかになるため、resolvent equationは以下のようになる。

 \displaystyle{
\begin{eqnarray}
(z - \delta)(z + \delta) &=& 0 \\
z^2 - \Delta &=& 0
\end{eqnarray}
}

上で述べた定理によると、これが有理数解を持てばGalois群が A_{5}に含まれることになる。言い換えると、 \sqrt{\Delta} \in \mathbb{Q}であればGalois群が A_{5}に含まれる。判別式自体は計算する手法が知られているため、これでGalois群が A_{5}に含まれるかどうかが分かる。あとは同様にして D_5,\ C_5を区別してやれば良い。

このように、上述の定理を繰り返し用いることで、多項式のGalois群を決定することができる。ただし、そのためには着目する群のresolvent invariantを求める必要があり、次元が大きくなるとそれが困難になると思われる。

超越的な解法について

ここまで、5次方程式の解を四則演算とべき根のみを使って表せる条件を考えてきた。しかし、これはかなり限定的な状況であるという点はハッキリと意識しておく必要があるだろう。実際、超越的な操作を許すことで、次元がどれだけ大きな方程式でも解を求められる事が知られている[3]。

まとめ

以上、5次方程式の可解性判定法について述べた。その中で、resolventとGalois群の間の関係を明らかにした。今回の調査を通して、Galois群がずっと身近に感じられるようになったのは大きな収穫であった。

本当は実際に5次方程式の解を求めるところまでやりたかったし、超越的な解法にも踏み込んでみたかった。しかし、残念ながら人生の時間は有限である。他の勉強との優先度を考え、5次方程式の解を巡る旅は一旦終えることにする。

もし今後この話題を再び取り上げる機会があれば、その時はまた良い旅ができることを願っている。

*1:これをWolframAlphaで愚直に計算してみたところ、めちゃくちゃ時間がかかった挙げ句にエラーになってしまった。[4]の著者がどうやって P_1,\ Q_1の間の関係を見出だしたのかが気になる。

5次方程式の解を巡る旅 〜3次・4次方程式のresolvent編〜

前回の記事 \mathbb{Q}上の5次既約多項式のGalois群について調べた。本稿では実際に方程式を解くために必要となるresolventについて説明する。

本当に知りたいのは5次方程式についてだが、前準備としてより低次元の方程式が解ける仕組みを理解しておくことは有用なので、本稿では話のスコープを3次・4次方程式に絞ることにする。

Resolventを用いた方程式の解法

次元の高い方程式を扱うための方法の1つとして、問題をより次元の低い方程式に帰着させることが挙げられる。例えば、nを3以上の自然数として、あるn次方程式を解きたいとする。もし自然数m  (m < n) に対してm次方程式の解から元の方程式の解が導き出せるのであれば、解くべき問題をずっと簡単にすることができる。

Resolventは3次・4次方程式に対して、そのような次元削減の方法を与えてくれる。

3次方程式の場合

Resolvent invariant

 \mathbb{Q}上の3次多項式 f(x) = x^3 + a_2 x^2 + a_1 x + a_0に対して、方程式 f(x)=0を解くことを考える。議論の流れに大きな影響はないので、f(x)はmonicとしている。

f(x)の根を x_1,\ x_2,\ x_3としたとき、一部の根の置換に対して不変となるような x_1,\ x_2,\ x_3多項式を考える。「一部の根の置換」として3次交代群 A_3を考えた場合、その作用に対して不変となる多項式を得るためには以下の式を利用する。

 \displaystyle{
U = x_1 + \omega x_2 + \omega^2 x_3
}

ここで、 \omegaは1の原始3乗根である。すると、 U^3 A_3の作用に対して不変となる。

このように、対称群の部分群に対して不変となるような式のことをresolvent invariantと呼ぶ[1]。しかし、実のところresolventという用語は使う人によって指すものが異なっている場合があり、resolvent invariantのことを単にresolventと呼ぶこともあるようである。

Resolvent equation

話を続けよう。さらに以下の式を考える。

 \displaystyle{
V = x_1 + \omega^2 x_2 + \omega x_3
}

 U^3 A_3の作用に対しては不変だが、奇置換を作用させると V^3に変化する。実は V^3も同様の性質を持っており、 A_3の作用に対しては不変、奇置換の作用に対しては U^3に変化する。

ここで、 U^3,\ V^3を解に持つ方程式を考えてみる。

 \displaystyle{
(t - U^3)(t - V^3) = 0
}

左辺をg(x)とおく。ここまでの議論により、g(x)の係数に S_3の元を作用させると、以下のどちらかになる。

 \displaystyle{
\begin{eqnarray}
(t - U^3)(t - V^3) \\
(t - V^3)(t - U^3)
\end{eqnarray}
}

結果はどちらも同じになっている。つまり、g(x)は S_3の作用に対して不変になる。そのため、g(x)の係数は x_1,\ x_2,\ x_3の対称式となる。対称式は基本対称式で表すことができるわけだが、解と係数の関係よりf(x)の係数が x_1,\ x_2,\ x_3の基本対称式になることを考えると、これはg(x)の係数をf(x)の係数で表せることを意味する。 ただし、計算は面倒なので割愛する。

このようして得られたg(x)を解けば U^3,\ V^3が分かる。あとはここから x_1,\ x_2,\ x_3を求めたいわけだが、これは以下のようして得られる。

 \displaystyle{
\begin{eqnarray}
x_1 &=& \frac{U + V - a_2}{3} \\
x_2 &=& \frac{\omega^2 U + \omega V - a_2}{3} \\
x_3 &=& \frac{\omega U + \omega^2 V - a_2}{3}
\end{eqnarray}
}

ただし、 a_2 = -(x_1 + x_2 + x_3)に注意されたい。

このように、3次方程式を解くにはまず g(x)=0という2次方程式を解き、その解を元に f(x)=0の解を求める。そして、元の方程式を解くために利用される方程式 g(x)=0のことをresolventと呼ぶ[1]。これに関しても用語の揺れがあって、resolvent equation、または日本語だと分解方程式とか分解式などと呼ばれることもある。

Resolvent invariantの条件

このようなことが成立するのは、こうなるようにresolvent invariantをうまく選んでいるからである。すなわち、resolvent invariantは以下の条件を満たすように選ばれていたのである。

  • 対称群の作用に対してn個未満のパターンにしか変化しない。
  • そこから元の方程式の解を導き出せる。

3次方程式についてはこのような都合の良い式が存在したので、解くことができたのである。

4次方程式の場合

4次方程式も基本的には同じ流れで解ける。 \mathbb{Q}上の4次多項式 f(x) = x^4 + a_3 x^3 + a_2 x^2 + a_1 x + a_0に対して、方程式 f(x)=0を解くことを考える。やはりf(x)はmonicとしておく。

f(x)の根を x_1,\ x_2,\ x_3,\ x_4としたとき、resolvent invariantとして以下の式を考えてみる。

 \displaystyle{
\tau_1 = x_1 x_2 + x_3 x_4
}

 \tau_1は二面体群 D_4 = \langle (1\ 2),\ (1\ 3\ 2\ 4) \rangleの作用に対しては不変であるが、それ以外の置換を作用させると以下のどちらかの式に変化する。

 \displaystyle{
\begin{eqnarray}
\tau_2 &=& x_1 x_3 + x_2 x_4 \\ 
\tau_3 &=& x_1 x_4 + x_2 x_3
\end{eqnarray}
}

ここで1つ困ったことがある。3次方程式の場合は U^3,\ V^3がどちらも A_3の作用に対して不変となっていた。しかし、ここで得られた \tau_2,\ \tau_3 D_4に対して不変ではない。この違いをどう捉えたら良いだろうか?

実は、 \tau_2,\ \tau_3はそれぞれ D_4と共役な部分群 D_4' =  \langle(1\ 3),\ (1\ 2\ 3\ 4)  \rangle D_4'' =  \langle(1\ 4),\ (1\ 3\ 4\ 2)  \rangleの作用に対して不変なのである。3次方程式の場合は A_3がたまたま S_3正規部分群だったため、共役な部分群が A_3だけだったのである。

あとは \tau_2,\ \tau_3にそれぞれ D_4',\ D_4''以外の置換を作用させたときにどうなるかだが、 \tau_2 \tau_1,\ \tau_3のどちらかに、 \tau_3 \tau_1,\ \tau_2のどちらかに変化し、それ以外の変化のパターンはない。結局、 \tau_1,\ \tau_2,\ \tau_3 S_4の作用に対して変化しないか、互いに遷移し合うかのどちらかになる。

このとき、以下の方程式がresolvent equationとなる。

 \displaystyle{
(t - \tau_1)(t - \tau_2)(t - \tau_3) = 0
}

左辺をg(x)とおく。先ほどの議論により、g(x)の係数に S_4の元を作用させると根が互いに入れ替わるだけで、g(x)自体は不変となる。そのため、g(x)の係数は x_1,\ x_2,\ x_3,\ x_4の対称式となり、解と係数の関係によりg(x)の係数をf(x)の係数で表すことができる。

このようして得られたg(x)を解けば \tau_1,\ \tau_2,\ \tau_3が分かる。最後に、これらを用いて x_1,\ x_2,\ x_3,\ x_4を求める必要があるが、これは可能である。具体的な式は複雑なので割愛するが、気になる方は[2]などを参照されたい。

これで4次方程式も解くことが出来た。

おまけ:Lagrange resolventとは

本筋とはあまり関係ないが、最後にLagrange resolventの話をしておこうと思う。私は本件の調査を始めるまで、高次方程式を解くにはLagrange resolventというすごいやつを使えば良いのだと思っていたが、実はそうではない。ここで今の私の理解を整理しておく。

あるn次多項式f(x)の根を x_1,\ x_2,\ \cdots ,\ x_nとすると、Lagrange resolventとは以下のような式のことを言う。

 \displaystyle{
\sum_{i=1}^{n} \zeta_n^{i-1} x_i
}

ただし、 \zeta_nは1の原始n乗根である。

Lagrange resolventには面白い性質がある。すなわち、 \zeta_nで割ると根に巡回置換 (1\ 2\cdots n)を作用すさせるのと同じ効果が得られるのである。すると、 \frac{1}{\zeta_n}の作用により以下の異なるn個の式が得られる。

 \displaystyle{
\begin{eqnarray}
\sum_{i=1}^{n} \zeta_n^{i-1} x_i &=& x_1 + \zeta_n x_2 + \zeta_n^2 x_3 + \cdots + \zeta_n^{n-1} x_n \\
\frac{1}{\zeta_n} \sum_{i=1}^{n} \zeta_n^{i-1} x_i &=& x_2 + \zeta_n x_3 + \zeta_n^2 x_4 + \cdots + \zeta_n^{n-1} x_1 \\
\frac{1}{\zeta_n^2} \sum_{i=1}^{n} \zeta_n^{i-1} x_i &=& x_3 + \zeta_n x_4 + \zeta_n^2 x_5 + \cdots + \zeta_n^{n-1} x_2 \\
\vdots \\
\frac{1}{\zeta_n^{n-1}} \sum_{i=1}^{n} \zeta_n^{i-1} x_i &=& x_n + \zeta_n x_1 + \zeta_n^2 x_2 + \cdots + \zeta_n^{n-1} x_{n-1}
\end{eqnarray}
}

ここで、これらを全てn乗した式を考えると、全て一致することが分かる。つまり、n次多項式のLagrange resolventは、n乗することで巡回置換 (1\ 2\cdots n)に対して不変となるのである。

それ以外の置換に対する変化を考えると、結局Lagrange resolventのn乗は (n-1)!通りに変化することが分かる。

実は3次方程式を解く際に登場したU, VはLagrange resolventになっている。そのため、これらを3乗すると (3-1)!=2通りの式に変化したと言うわけである。

一方、4次方程式ではLagrange resolventを利用していない。それは、変化のパターンが (4-1)!=6通りとなってしまい、4次方程式を解くために6次方程式を解かなければならなくなるからである。

そんなわけで、Lagrange resolventは面白いが、方程式を解くのに使える万能薬ではないのである。

まとめ

以上、resolventとは何かということについて説明した。書き始めてみると毎度長くなってしまい、なかなか核心に迫れないでいるが、次回こそ5次方程式の可解性の議論に入りたいと思う。

参考

[1] Resolvent (Galois theory) - Wikipedia
[2]

代数学2 環と体とガロア理論

代数学2 環と体とガロア理論