情報幾何学を嗜む ~ダイバージェンスの不変性~

前回までの記事で確率分布のパラメータが成す空間の双対平坦性や、重要な確率分布族である指数型分布族について説明してきた。本稿では確率分布のパラメータが成す空間の幾何学的な構造について不変性というキーワードからアプローチし、KLダイバージェンスがいかに特別なものであるかについて説明する。

なお、不変性について議論するにあたり、確率分布としては離散・連続のどちらを考えても良いはずである。しかし、残念ながら参考にしている本[1]が離散確率分布のみをターゲットに議論しているため*1、ここでもそうすることにする。

不変性の要請

確率分布族から双対平坦な空間を構成する際、その空間における点 p({\bf x}, {\boldsymbol \theta})を定めるのは確率分布のパラメータ {\boldsymbol \theta}であり、 {\bf x}ではない。そのため、例えば {\bf x}全単射により可逆的に変換される場合などでは、確率分布の表現の仕方は変わってもパラメータは変わらないため、この空間の幾何学的構造にも変化がない事が望まれる。

この考え方をもう一歩進めて、十分統計量というものを考える。十分統計量とは何であるかを説明しだすと長くなるので詳細な解説は他サイト[2]に譲るが、ざっくり言えばパラメータを推定するために十分な統計量である。

 s {\boldsymbol \theta}の十分統計量とすると、Fisherの因子分解定理[3]により確率分布 p({\bf x}, {\boldsymbol \theta})は以下のように書ける。

 \displaystyle{
p({\bf x}, {\boldsymbol \theta}) = \overline{p}(s, {\boldsymbol \theta}) r({\bf x})
}

この時、以下のように不変性の要請が定められる[1]。

不変性の要請
確率分布空間に導入する幾何学的量は, 任意の十分統計量を用いて分布 \overline{p}(s, {\boldsymbol \theta})から導くことができる.

fダイバージェンス

不変性が要請される幾何学的量として、ダイバージェンスは重要なものの1つである。不変なダイバージェンス*2の具体例はいろいろ考えられるが、不変性に加えてさらに分解可能性という性質を要求するとき、それらを満たすダイバージェンスはfダイバージェンスのみである事が知られている。分解可能なダイバージェンス、及びfダイバージェンスの定義を以下に示す[1] (記号の導入のために一部改変して引用する)。

離散確率分布 S_n (n \ge 3)の2つの分布 {\bf p}, {\bf q}ダイバージェンス D[{\bf p}, {\bf q}]を考えよう. これが成分ごとの和の形
 \displaystyle{
D[{\bf p}, {\bf q}] = \sum d(p_i, q_i)
}
に書ける場合, これを分解可能なダイバージェンスと言う.
分解可能で不変なダイバージェンスは,  f(1) = 0を満たす微分可能な凸関数 fを用いて
 \displaystyle{
D_f [{\bf p}, {\bf q} ] = \sum p_i f\left(\frac{q_i}{p_i} \right)
}
と書ける. これをfダイバージェンスと呼ぶ.

 f(1) = 0という条件は D_f [{\bf p}, {\bf p} ] = 0となるために必要である。

双対ダイバージェンス

fダイバージェンスには双対ダイバージェンスが存在する。まず、以下のような関数を考える。

 \displaystyle{
f^* (x) = x f \left(\frac{1}{x} \right)
}

これを用いたfダイバージェンスは以下のようになる。

 \displaystyle{
\begin{eqnarray}
D_{f^*} [{\bf p}, {\bf q} ] &=& p_i \left(\frac{q_i}{p_i} f \left(\frac{p_i}{q_i} \right) \right) \\
&=& q_i f \left(\frac{p_i}{q_i} \right)
\end{eqnarray}
}

 D_{f^*} [{\bf p}, {\bf q} ] D_f^* [{\bf p}, {\bf q} ]と書くことにすると、以下の式が成り立つ。

 \displaystyle{
D_f^* [{\bf p}, {\bf q} ] = D_f [{\bf q}, {\bf p} ]
}

具体例

KLダイバージェンス

 f(x) = -\log{x}とするとfダイバージェンスは以下のようになる。

 \displaystyle{
\begin{eqnarray}
D_f [{\bf p}, {\bf q} ] &=& \sum -p_i \log{\frac{q_i}{p_i}}  \\
&=& \sum p_i \log{\frac{p_i}{q_i}}
\end{eqnarray}
}

これはKLダイバージェンスになっている。

 \alphaダイバージェンス

 \alphaを実パラメータとして f_{\alpha}(x)を以下のように定める。

 \displaystyle{
f_{\alpha}(x) = \begin{cases}
  \frac{4}{1 - \alpha^2} \left(1 - x^{\frac{1+\alpha}{2}} \right) & (\alpha \ne \pm 1) \\
  x \log{x} & (\alpha = 1) \\
  -\log{x} & (\alpha = -1)
\end{cases}
}*3

この時、 f_{\alpha}(x)に関するfダイバージェンスは以下のようになる*4

 \displaystyle{
D_{\alpha} [{\bf p}, {\bf q} ] = \begin{cases}
\frac{4}{1 - \alpha^2} \left(1 - \sum p_i^{\frac{1-\alpha}{2}} q_i^{\frac{1+\alpha}{2}} \right) & (\alpha \ne \pm 1) \\
\sum q_i \log{\frac{q_i}{p_i}} & (\alpha = 1) \\
\sum p_i \log{\frac{p_i}{q_i}} & (\alpha = -1)
\end{cases}
}

 \alphaダイバージェンスはいろいろなダイバージェンスの一般化となっている。例えば、 \alpha = -1とすればこれはKLダイバージェンスになり、 \alpha = 1とすればKLダイバージェンスの双対になる。

標準凸関数

fダイバージェンスには以下の2つの性質がある。

  • 凸関数 f(x) c(x - 1) ( cは定数) という形の1次式を加えたものを用いても値が変わらない。
  • 凸関数 f(x)を定数倍した cf(x)を用いると値が c倍される。

これより、 fの代わりに以下の凸関数を考えても良い。

 \displaystyle{
\overline{f}(x) = \frac{1}{f''(1)}(f(x) - f'(1)(x - 1))
}

 \overline{f}(x) f(1) = 0, f'(1) = 0, f''(1) = 1を満たす。このような凸関数 \overline{f}(x)を標準凸関数と呼ぶ。

標準凸関数の双対

本筋とは外れるが、標準凸関数の双対 \overline{f}^* (x)は標準凸関数になるのだろうか?以下で確かめてみよう。まず、 \overline{f}^* (x)の一階導関数、二階導関数はそれぞれ以下のようになる。

 \displaystyle{
\overline{f}^*{'}(x) = \overline{f} \left(\frac{1}{x} \right) - \frac{1}{x} \overline{f}' \left(\frac{1}{x} \right)
}

 \displaystyle{
\overline{f}^*{'}{'}(x) = \frac{1}{x^3} \overline{f}'' \left(\frac{1}{x} \right)
}

よって f(1), f'(1), f''(1)の値はそれぞれ以下のようになる。

 \displaystyle{
\begin{eqnarray}
\overline{f}^*(1) &=&  \overline{f}(1) \\
&=& 0
\end{eqnarray}
}

 \displaystyle{
\begin{eqnarray}
\overline{f}^*{'}(1) &=&  \overline{f}(1) -  \overline{f}'(1) \\
&=& 0
\end{eqnarray}
}

 \displaystyle{
\begin{eqnarray}
\overline{f}^*{'}{'}(1) &=& \overline{f}''(1) \\
&=& 1
\end{eqnarray}
}

以上により、 \overline{f}^* (x)も標準凸関数であることが分かった。

正測度空間

ここで、後の議論のために必要な正測度空間*5に言及しておく。

正測度空間とは確率分布から制約 \sum p_i = 1を外すことで得られる空間であり、以下のように表すことができる。

 \displaystyle{
M_n = \{{\bf m} = (m_1, \cdots , m_n) , m_i > 0 \}
}

正測度空間にも確率分布の空間と同様にfダイバージェンスを定義できる。すなわち、 fを標準凸関数とすると、 M_nの任意の2点 {\bf x}, {\bf y}についてf ダイバージェンスは以下のように定義できる。

 \displaystyle{
D_f[{\bf x}, {\bf y} ]= \sum x_i f \left(\frac{y_i}{x_i} \right)
}

正測度空間の場合、 fは標準凸関数であることが必要らしい。標準凸関数でないとダイバージェンスの定義を満たさなくなるようである。

双対平坦空間を導く不変で分解可能なダイバージェンス

ここまでで確率分布の空間や正測度空間に導入される不変なダイバージェンスとしてfダイバージェンスについて説明した。しかし、幾何学的構造が不変性を持っていると望ましいと思う一方で、情報幾何学的な議論を展開する上でやはり双対平坦性は欠かせない。

では、不変性を持ち、かつ双対平坦空間を導くような良いとこ取りなダイバージェンスは存在しないのだろうか?この疑問の答えを与えるのが以下の定理である[1]。

KLダイバージェンスの特徴付け
双対平坦性を導く不変で分解可能なダイバージェンスはKLダイバージェンス (またはその双対) であり, それ以外にはない.

この事実こそがKLダイバージェンスを唯一無二の特別なダイバージェンス足らしめるのである。

正測度空間の場合

ここで話を正測度空間にまで広げると、他にも双対平坦性を導く不変で分解可能なダイバージェンスが存在する。それを説明するために、以下のような関数を考える。

 \displaystyle{
k_{\alpha}(x) = \begin{cases}
  \frac{2}{1 - \alpha} \left(x^{\frac{1-\alpha}{2}} - 1 \right) & (\alpha \ne 1) \\
  \log{x} & (\alpha = 1) \\
\end{cases}
}

これを用いて {\bf m}の各座標を以下のように変換する。

 \displaystyle{
\theta^i = k_{\alpha}(m_i)
}

これを正測度 m_i \alpha表現と呼ぶ。この時、以下の定理が成立する[1]。

 M_nにおいて,  \alphaダイバージェンス \alpha表現をアファイン座標系とする不変で分解可能なBregmanダイバージェンスであり、これ以外に不変で分解可能なBregmanダイバージェンスはない.

厳密な証明は本[1]に譲るとして、ここではBregmanダイバージェンス \alphaダイバージェンスが両立することの雰囲気だけ説明しておく。まず、関数 U_{\alpha}(x)を以下のように定義する*6

 \displaystyle{
U_{\alpha}(x) = \frac{2}{1+\alpha} k^{-1}_{\alpha}(x)
}

この時、 M_nにおいて凸関数 \Psi_{\alpha}({\boldsymbol \theta})を以下のように定義する。

 \displaystyle{
\Psi_{\alpha}({\boldsymbol \theta}) = \sum U_{\alpha}(\theta^i)
}

これを用いて得られるBregmanダイバージェンス {\boldsymbol \theta}座標から {\bf m}座標に戻すと \alphaダイバージェンスになる*7

再び確率分布の空間の場合

確率分布の空間が正測度空間の部分集合であることに着目すると、KLダイバージェンスの特徴付けについては正測度空間の特別な場合として説明できる。

確率分布の場合は \sum m_i = 1でなければならない。これに m_i = k_{\alpha}^{-1} (\theta^i)を代入すると、 \sum k_{\alpha}^{-1} (\theta^i) = 1となる。 k_{\alpha}^{-1} (\theta^i) \alpha = -1でのみ1次関数になるため、この時に限り確率分布の空間が双対平坦な正測度空間内の超平面になる。これよりKLダイバージェンスだけが不変で分解可能かつ双対平坦空間を導くダイバージェンスとなる。

まとめ

本稿では不変で分解可能なダイバージェンスとしてfダイバージェンスを導入し、さらに双対平坦性も兼ね備えるダイバージェンスとしてKLダイバージェンス \alphaダイバージェンスの特徴付けを行った。

正直、本[1]だけでは理解できない部分が多く、書きたかったことの全てを書ききれなかったが、これまでの一連の記事を書き上げる中で情報幾何学に対する一定の理解は得たと思う。

ただし、触れられたのは基礎的な部分だけで、応用面については取り上げることが出来なかった。本[1]をパラパラと読み進めてみると、情報幾何学の手法を用いて解決された実用的な問題もあるようだが、数学的な難易度は更に増しているように見える。今すぐにとはいかないが、そのうち応用についても理解したい。

*1:ここまでずっと連続確率分布を扱っておきながら、いざ数学的な扱いが面倒になると離散確率分布に逃げる本書のスタンスは好ましいものとは思えない。

*2:この用語はもっと厳密に定義しておくべきであるが、本[1]やネット上の情報を漁っても納得のいく答えが得られなかった。そのため、大変心苦しいが定義を誤魔化したまま議論を進めている。

*3: \alpha = \pm 1の場合だけ特別な式が与えられている。本[1]によるとこれは \alpha \ne \pm 1の式の極限になっているとのことだが、明らかに \alpha \to 1の時に発散する。一体どういうことなのだろう…もし何か理由があってこの定義に妥当性があるのだとしても、全く自明ではないので説明して欲しかった。

*4:本[1]の式は符号が間違っている

*5:「正測度空間」という言葉をググってみても、全然それらしいページがヒットしない。この用語はどれくらいフォーマルなものなのだろうか。

*6: \alpha = -1では定義されないが、本[1]でそれに対する言及はない。恐らく、また極限を考えるのだろう。

*7:本[1]からはこのように読み取れたのだが、計算が複雑で、結局自分では確かめることができなかった。どなたか計算を追うことができた方がいれば、ぜひ真偽の程を教えて頂きたい。

情報幾何学を嗜む ~指数型分布族の幾何学~

前回の記事では双対平坦空間について説明した。これまでの記事では具体的な確率分布族は登場せず、ひたすら抽象的な議論が続いたが、いよいよ具体的な確率分布族について考えてみる。本稿では情報幾何学的に重要である指数型分布族に着目し、その幾何学的な構造について述べる。

指数型分布族

定義

指数型分布族とは {\bf u}を確率変数、 {\boldsymbol \theta}をパラメータとして、確率密度関数が以下のように書ける確率分布の族である。

 \displaystyle{
p({\bf u}, {\boldsymbol \theta}) = \exp \left(\sum_i \theta^i k_i({\bf u}) + r({\bf u})- \psi({\boldsymbol \theta}) \right)
}

いきなりだが、ここで (情報幾何学的な議論の本筋とはあまり関係ないが) 重要なポイントがある。それは、確率密度関数積分してなんぼであり、その積分とは通常はLebesgue積分であるため、確率密度関数は測度と密接な関係にあるということである。確率密度関数と測度の両方が定まって初めて積分により確率を求める事ができる。

今、 \exp(r({\bf u}))に着目すると、これは {\boldsymbol \theta}に依存していないため、確率密度関数から測度に追いやる事ができる。そうして、積分する際には測度として \exp(r({\bf u}))を折り込み済みのものを使用するのである。

このように考えることで、指数型分布族の定義式から \exp(r({\bf u}))を省く事ができる。ここでさらに x_i = k_i({\bf u})と置き、 {\bf x} = (x_1, x_2, \cdots, x_n)とすれば、確率密度関数は以下のように表せる。

 \displaystyle{
p({\bf x}, {\boldsymbol \theta}) = \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta}))
}

左辺は確率密度関数なので、定義域全域で積分して1にならなければならない。この条件より \psi({\boldsymbol \theta})は以下のようになる。

 \displaystyle{
\begin{eqnarray}
\int p({\bf x}, {\boldsymbol \theta}) d{\bf x} &=& \int \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) d{\bf x} \\
1 &=& \int \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) d{\bf x} \\
\exp(\psi({\boldsymbol \theta})) &=& \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \\
\psi({\boldsymbol \theta}) &=& \log \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}
\end{eqnarray}
}

念のため述べておくが、上記の計算に登場する積分では測度に \exp(r({\bf u }))が掛かる影響を考慮済みであると暗に仮定している。以降の計算でも同様である。

 \psi({\boldsymbol \theta})の凸性

前節で登場した \psi({\boldsymbol \theta})は凸関数である。それを示すためにHesse行列を求めてみよう。

 \displaystyle{
\begin{eqnarray}
\frac{\partial^2}{\partial \theta^i \partial \theta^j} \psi({\boldsymbol \theta})
&=& \frac{\partial^2}{\partial \theta^i \partial \theta^j} \log \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \\
&=& \frac{\partial}{\partial \theta^i} \frac{\int x_j \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}}{\int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}} \\
&=& \frac{\int x_i x_j \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} - \int x_i \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \int x_j \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}}
{\left \{\int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \right \}^2} \\
&=& \frac{\int x_i x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x} \int p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int x_i p({\bf x}, {\boldsymbol \theta}) d{\bf x} \int x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x}}
{\left \{\int p({\bf x}, {\boldsymbol \theta}) d{\bf x} \right \}^2} \\
&=& \int x_i x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int x_i p({\bf x}, {\boldsymbol \theta}) d{\bf x} \int x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x} \\
&=& \mathrm{E} [x_i x_j ] - \mathrm{E} [x_i ] \mathrm{E} [x_j ] \\
&=& \mathrm{Cov}(x_i, x_j)
\end{eqnarray}
} ・・・(1)

これより、Hesse行列は共分散行列となる。共分散行列は半正定値であるため、 \psi({\boldsymbol \theta})は凸関数である[2][3]。

指数型分布族の双対平坦構造

これまでの議論により指数型分布族には自然と凸関数が備わっていることが分かった。前回、前々回の記事より、凸関数が与えられればBregmanダイバージェンスや双対平坦空間が得られることを見てきた。これらの事実より、指数型分布族にもこれらの情報幾何学的な構造を定めることができる。本章ではそれを見ていこう。

双対空間

まずは双対座標、及び双対凸関数を求めてみよう。それぞれ以下のように計算できる。

 \displaystyle{
\begin{eqnarray}
{\boldsymbol \eta} &=& \nabla \psi({\boldsymbol \theta}) \\
&=& \nabla \log \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \\
&=& \frac{\int {\bf x} \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}}{\int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}} \\
&=& \int {\bf x} \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) d{\bf x} \\
&=& \int {\bf x} p({\bf x}, {\boldsymbol \theta}) d{\bf x}
\end{eqnarray}
}

 \displaystyle{
\begin{eqnarray}
\phi({\boldsymbol \eta}) &=& \max_{{\boldsymbol \theta}} ({\boldsymbol \theta} \cdot {\boldsymbol \eta} - \psi({\boldsymbol \theta})) \\
&=& {\boldsymbol \theta}({\boldsymbol \eta}) \cdot \int {\bf x} \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) d{\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta})) \\
&=& \int {\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) d{\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta})) \int \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) \\
&=&  \int ({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) d{\bf x} \\
&=& \int p({\bf x}, {\boldsymbol \theta}({\boldsymbol \eta})) \log p({\bf x}, {\boldsymbol \theta}({\boldsymbol \eta})) d{\bf x}
\end{eqnarray}
}

これより、 {\boldsymbol \eta} p({\bf x}, {\boldsymbol \theta})の期待値、 \phi({\boldsymbol \eta}) p({\bf x}, {\boldsymbol \theta}({\boldsymbol \eta}))エントロピーの符号を変えたものになっていることが分かる。

Bregmanダイバージェンス

次に \psi({\boldsymbol \theta})から導かれるBregmanダイバージェンスを計算してみる。

 \displaystyle{
\begin{eqnarray}
D[{\boldsymbol \theta}' : {\boldsymbol \theta} ] &=& \psi({\boldsymbol \theta}') + \phi({\boldsymbol \eta}) - {\boldsymbol \theta}' \cdot {\boldsymbol \eta} \\
&=& \psi({\boldsymbol \theta}') \int p({\bf x}, {\boldsymbol \theta}) d{\bf x} + \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int {\boldsymbol \theta}' \cdot {\bf x} p({\bf x}, {\boldsymbol \theta}) d{\bf x} \\
&=&  \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int ({\boldsymbol \theta}' \cdot {\bf x} - \psi({\boldsymbol \theta}')) p({\bf x}, {\boldsymbol \theta}) d{\bf x} \\
&=&  \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}') d{\bf x} \\
&=& \int p({\bf x}, {\boldsymbol \theta}) \log \frac{p({\bf x}, {\boldsymbol \theta})}{p({\bf x}, {\boldsymbol \theta}')} d{\bf x}
\end{eqnarray}
}

ただし、 {\boldsymbol \theta} {\boldsymbol \eta}、および {\boldsymbol \theta}' {\boldsymbol \eta}'がそれぞれ互いに双対であるとする。これはKLダイバージェンスに他ならない[4]。

Riemann計量

Riemann計量は以下のように求められるのだった。

 \displaystyle{
g_{ij} = \frac{\partial^2}{\partial \theta^i \partial \theta^j} \psi({\boldsymbol \theta})
}

右辺は式(1)である程度まで計算したが、それをさらに以下のように変形してみる。

 \displaystyle{
\begin{eqnarray}
g_{ij} &=& \mathrm{Cov}(x_i, x_j) \\
&=& \mathrm{E} [(x_i - \mathrm{E} [x_i ])(x_j  - \mathrm{E} [x_j ]) ] \\
&=& \mathrm{E} \left [\left(x_i - \frac{\partial}{\partial \theta^i} \psi({\boldsymbol \theta}) \right) \left( x_j  - \frac{\partial}{\partial \theta^j} \psi({\boldsymbol \theta}) \right) \right ] \\
&=& \mathrm{E} \left [\frac{\partial}{\partial \theta^i} ({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) \frac{\partial}{\partial \theta^j}({\boldsymbol \theta} \cdot {\bf x}  - \psi({\boldsymbol \theta})) \right ] \\
&=& \mathrm{E} \left [\frac{\partial}{\partial \theta^i} \log p({\bf x}, {\boldsymbol \theta}) \frac{\partial}{\partial \theta^j} \log p({\bf x}, {\boldsymbol \theta}) \right ]
\end{eqnarray}
}

これはFisher情報行列に他ならない[5]。

例:指数分布

せっかくなので例を見てみよう。指数型分布族に属する確率分布はいろいろあるが、ここでは指数分布をピックアップしてみる。指数分布の確率密度関数は以下の式で表される[6]。

 \displaystyle{
p(x, \lambda)=\left\{{\begin{array}{ll}\lambda e^{-\lambda x}&(x\geq 0)\\0&(x<0)\end{array}}\right.
}

ただし、 \lambda >0である。 x\geq 0の場合の式において \theta = -\lambdaと置いて少し変形すると以下のようにできる。

 \displaystyle{
p(x, \theta) = \exp( \theta x - (-\log (-\theta)) )
}

そのため、指数分布は指数型分布族に含まれる。

双対座標と双対凸関数

双対座標 \etaは以下のようになる。

 \displaystyle{
\begin{eqnarray}
\eta &=& \int x p(x, \theta) dx \\
&=& \int_0^{\infty} x (-\theta) e^{\theta x} dx \\
&=& -\theta \left \{\left [x \frac{e^{\theta x}}{\theta} \right ]_0^{\infty} -  \int_0^{\infty} \frac{e^{\theta x}}{\theta} dx \right \} \\
&=& \int_0^{\infty} e^{\theta x} dx \\
&=& \left [  \frac{e^{\theta x}}{\theta} \right ]_0^{\infty} \\
&=& -\frac{1}{\theta}
\end{eqnarray}
}

双対凸関数 \phiは以下のようになる。

 \displaystyle{
\begin{eqnarray}
\phi(\eta) &=& \int p(x, \theta(\eta)) \log p(x, \theta(\eta)) dx \\
&=& \int_0^{\infty} (-\theta) e^{\theta x} \log ((-\theta) e^{\theta x}) dx \\
&=& \int_0^{\infty} (-\theta) e^{\theta x} (\log (-\theta) + \theta x) dx \\
&=& \log (-\theta) \int_0^{\infty} (-\theta) e^{\theta x} dx + \theta \int_0^{\infty} x (-\theta) e^{\theta x} dx \\
&=& \log (-\theta) \left [ -e^{\theta x} \right ]_0^{\infty} - 1 \\
&=& \log (-\theta) - 1 \\
&=& -\log \eta - 1
\end{eqnarray}
}

Bregmanダイバージェンス

Bregmanダイバージェンスは以下のようになる。

 \displaystyle{
\begin{eqnarray}
D[\theta' : \theta ] &=& \int p(x, \theta) \log \frac{p(x, \theta)}{p(x, \theta')} dx \\
&=& \int_0^{\infty} (-\theta) e^{\theta x} \log \frac{(-\theta) e^{\theta x}}{(-\theta') e^{\theta' x}} dx \\
&=& (-\theta) \int_0^{\infty} e^{\theta x} (\log (-\theta) + \theta x - \log (-\theta') - \theta' x) dx \\
&=& (-\theta) \left \{ (\log (-\theta) - \log (-\theta')) \int_0^{\infty} e^{\theta x} dx + (\theta - \theta') \int_0^{\infty} x e^{\theta x}  dx \right \} \\
&=& (-\theta) \left \{ (\log (-\theta) - \log (-\theta')) \frac{-1}{\theta} + \frac{\theta - \theta'}{\theta^2} \right \} \\
&=& \log (-\theta) - \log (-\theta') - 1 + \frac{\theta'}{\theta} \\
&=& - \log (-\theta') -\log \eta - 1 - \theta' \eta
\end{eqnarray}
}

Riemann計量

指数分布はパラメータが1つしかないため、Riemann計量はスカラーとなる。具体的には以下のように計算される。

 \displaystyle{
\begin{eqnarray}
g &=& \frac{\partial^2}{\partial \theta^2} \psi(\theta) \\
&=& \frac{\partial^2}{\partial \theta^2} (-\log (-\theta)) \\
&=& \frac{\partial}{\partial \theta} \frac{-1}{\theta} \\
&=& \frac{1}{\theta^2}
\end{eqnarray}
}

Riemann計量が分かるとパラメータ空間の中での確率分布同士の距離が分かる。確率分布同士の距離とは、定性的には確率分布の形状が互いにどれくらい異なるかを表すものと考えられる。

今回の例の場合、指数分布の平均は \frac{-1}{\theta}であるため、 \thetaの絶対値が大きくなると平均は0に近づいていく。そのような領域では \thetaの値が少し違う分布同士でほとんど形状の差がなくなる。これは \thetaの絶対値が大きくなるに連れてRiemann計量の値が0に近づいていくことに対応する。

一方、 \thetaが0に近いところでは \thetaが僅かに変わるだけで平均値が大幅に変動し、分布の形状が大きく変わる。これは \thetaが0に漸近するに連れてRiemann計量が急激に大きくなることと関連している。

ただし、本当は分散による影響も加味する必要がある。指数分布の分散は \frac{1}{\theta^2}であるため、 \thetaが0に近いところでは分散が大きくなる。分散が大きくなると分布が散らばるため、 \thetaが変化しても分布が変動し辛くなる。これは先程の平均の議論と逆のことを言っていることになるが、指数分布の場合は平均の変化の方が分布の形状を決める上で支配的な要因になっているということなのだろう。

まとめ

本稿では指数型分布族が持つ情報幾何学的な構造について調べた。指数型分布族には必ず凸関数が付随し、これにより得られるBregmanダイバージェンスはKLダイバージェンスになっていることを見た。さらに、付随する凸関数から定められるRiemann計量はFisher情報行列に一致することが分かった。

実はKLダイバージェンスは情報幾何学において特別な意味を持つ。次回はそのあたりの話を書きたいと思う。

情報幾何学を嗜む ~微分幾何学的な双対平坦空間の導入~

前回の記事ではBregmanダイバージェンスから導かれる双対空間について述べた。本稿ではこれらの空間に定められる双対接続、及びそこから導かれる双対平坦空間について考えてみる。

基本的には本[1]を参考にしているのだが、この本はどうも双対平坦な空間の導出がざっくりしすぎていて、少々納得感に欠けた。そのため、本稿では双対平坦な空間の導出に関する計算を少しだけ泥臭く書いてみることにする。

なお、本稿では全体的にEinsteinの規約を用いているので注意されたい。

ダイバージェンスから導かれるRiemann計量

前回の記事でダイバージェンスの定義について説明した。その中で、Taylor展開した際の2次の項の係数が正定値対称行列になるという条件があった。この正定値対称という条件はいかにもRiemann計量を想起させる。実際、情報幾何学ではこれをRiemann計量として使うことで、確率分布のパラメータの空間をRiemann多様体と見なすのである。

Bregmanダイバージェンスの場合の例

例として、以下の2変数凸関数から導かれるBregmanダイバージェンスについて、そこから得られるRiemann計量を計算してみよう。

 \displaystyle{
f(x, y) = x^2 + 3xy + 4y^2
}

始めに f(x, y)が凸関数であることを確認する。Hesse行列は以下のようになる。

 \displaystyle{
G = \left(
\begin{array}{cc}
2 & 3 \\
3 & 8
\end{array}
\right)
}

 \mathrm{det} G = 7 \gt 0となるため、これは凸関数である。

次に、Riemann計量を求めてみる。と言っても、前回の記事でBregmanダイバージェンスをTaylor展開した際の2次の項は、元になる凸関数のHesse行列に等しいことを述べた。そのため、結局 Gがリーマン計量である。

よく見ると Gは確かに対称行列になっている。これは f(x, y) C^2級なので当然である。また、以下の計算により正定値行列であることも分かる。

 \displaystyle{
\begin{eqnarray}
\left(
\begin{array}{cc}
x & y
\end{array}
\right)
G
\left(
\begin{array}{c}
x \\
y
\end{array}
\right)
&=&
2(x^2 + 3xy + 4y^2) \\
&=& 2\left(\left(x + \frac{3}{2}y \right)^2 + \frac{7}{4}y^2 \right) \gt 0
\end{eqnarray}
}

ただし、 (x, y) \ne (0, 0)である。

Riemann計量を成分毎に書き下すと以下のようになる。

 \displaystyle{
\begin{eqnarray}
g_{1, 1} &=& 2 \\
g_{1, 2} &=& g_{2, 1} = 3 \\
g_{2, 2} &=& 8
\end{eqnarray}
}

双対接続

次に、多様体の接続について考えてみる。情報幾何学において特に重要な概念として双対接続がある。少々難しい概念なので、順を追って説明していこう。

接続とは

ざっくり言うと、接続とは多様体の異なる点における接空間の間に対応関係を与えるものである。特に、その対応関係にある種の線形性があるものをAffine接続と呼ぶ。Affine接続を説明すると長くなるので、詳細は[2]などを参照のこと。

Levi-Civita接続

Affine接続のうち、さらに以下の2つの性質を満たすものをLevi-Civita接続と呼ぶ。

  1.  \nabla_{{\bf X}} {\bf Y} - \nabla_{{\bf Y}} {\bf X} = [{\bf X}, {\bf Y}] (対称な接続) 
  2.  {\bf X} g({\bf Y}, {\bf Z}) = g(\nabla_{{\bf X}}{\bf Y}, {\bf Z}) + g({\bf Y}, \nabla_{{\bf X}}{\bf Z}) (計量との整合性) 

Levi-Civita接続はベクトルの平行移動に対して計量を保つため、Riemann計量と強い依存関係がある。実際、Levi-Civita接続の接続係数はRiemann計量から一意に定まる。詳細は[2]などを参照のこと。

ここで、 {\bf X} = \partial_i, {\bf Y} = \partial_j, {\bf Z} = \partial_kを1つ目の式に代入してみる。ただし、局所座標系を (x^1, x^2, \cdots , x^n)とし、 \partial_i = \frac{\partial}{\partial x^i}とする。

 \displaystyle{
\begin{eqnarray}
\nabla_{\partial_i} \partial_j - \nabla_{\partial_j} {\partial_i} &=& [\partial_i, \partial_j] \\
\Gamma_{ij}^l \partial_l - \Gamma_{ji}^l \partial_l &=& \partial_i \partial_j - \partial_j \partial_i \\
\Gamma_{ij}^l \partial_l &=& \Gamma_{ji}^l \partial_l
\end{eqnarray}
}

成分を比較して \Gamma_{ij}^l = \Gamma_{ji}^lとなる。

次に、 {\bf X} = \partial_i, {\bf Y} = \partial_j, {\bf Z} = \partial_kを2つ目の式に代入してみる。

 \displaystyle{
\begin{eqnarray}
\partial_i g(\partial_j, \partial_k) &=& g(\nabla_{\partial_i} \partial_j, \partial_k) + g(\partial_j, \nabla_{\partial_i} \partial_k) \\
\partial_i g_{jk} &=& g(\Gamma_{ij}^l \partial_l, \partial_k) + g(\partial_j, \Gamma_{ik}^l \partial_l) \\
\partial_i g_{jk} &=& \Gamma_{ij}^l g_{lk} + \Gamma_{ik}^l g_{jl}
\end{eqnarray}
}

最後の式の右辺で  \Gamma_{ijk} = \Gamma_{ij}^l g_{lk}などの置き換えをすると以下のようになる。

 \displaystyle{
\partial_i g_{jk} = \Gamma_{ijk} + \Gamma_{ikj}
}

双対接続

Levi-Civita接続における計量との整合性の条件を外し、代わりに2つの接続 \nabla, \nabla^{*}が以下の条件を満たすとする。

 \displaystyle{
{\bf X} g({\bf Y}, {\bf Z}) = g(\nabla_{{\bf X}}{\bf Y}, {\bf Z}) + g({\bf Y}, \nabla^{*}_{{\bf X}}{\bf Z})
}

このような接続を双対接続と呼ぶ。

Levi-Civita接続の時と同様に {\bf X} = \partial_i, {\bf Y} = \partial_j, {\bf Z} = \partial_kを代入すると以下のようになる。

 \displaystyle{
\partial_i g_{jk} = \Gamma_{ijk} + \Gamma_{ikj}^{*}
} ・・・(1)

ただし、接続係数の右肩に*が付いているものは \nabla^{*}の接続係数であることを意味する。

Bregmanダイバージェンスから導かれるRiemann空間の双対平坦性

前回の記事で、Bregmanダイバージェンスから導かれる双対空間について述べた。以下では元の空間の座標を {\boldsymbol \theta}、双対空間の座標を {\boldsymbol \eta}で表す。

今、双対接続 \nabla, \nabla^{*}として、接続 \nabla {\boldsymbol \theta}座標における接続係数が全て大域的に0になるようなものを考える。これはつまり、曲率が0の平坦な接続であることを意味する。この時、接続 \nabla^{*}がどうなるかを考えてみよう。

準備

いくつか式を準備しておこう。ここでは {\boldsymbol \theta}座標、 {\boldsymbol \eta}座標で表した接続係数をそれぞれ \Gamma_{ijk}^{({\boldsymbol \theta})}, \Gamma_{ijk}^{({\boldsymbol \eta})}などと表記する。また、Riemann計量についても同様に g^{({\boldsymbol \theta})}_{ij}, g^{({\boldsymbol \eta})}_{ij}のように表記する。

片方の接続が平坦な場合の双対接続の式

まず(1)式に接続係数0を代入すると以下の式が成立する。

 \displaystyle{
\frac{\partial}{\partial \theta^i} g^{({\boldsymbol \theta})}_{jk} = \Gamma_{ikj}^{* ({\boldsymbol \theta})}
} ・・・(2)

ここで、Riemann計量の対称性より g^{({\boldsymbol \theta})}_{jk} = g^{({\boldsymbol \theta})}_{kj}であり、さらに接続の対称性より \Gamma_{ikj}^{* ({\boldsymbol \theta})} = \Gamma_{kij}^{* ({\boldsymbol \theta})}となる。これらを組み合わせると、添字の並び替えに対して \nabla^{*}の接続係数が不変となることが分かる。特に、以下の式はのちほど利用するため明示的に述べておく。

 \displaystyle{
\Gamma_{ikj}^{* ({\boldsymbol \theta})} = \Gamma_{jki}^{* ({\boldsymbol \theta})}
} ・・・(3)

Riemann計量の別表現

元の空間に定義された凸関数を \psi、双対空間に定義された凸関数を \phiとすると、 {\boldsymbol \theta}座標と {\boldsymbol \eta}座標の変換は以下の式で表されるのだった。

 \displaystyle{
\begin{eqnarray}
\eta_i &=& \frac{\partial \psi}{\partial \theta^i} \\
\theta^i &=& \frac{\partial \phi}{\partial \eta_i}
\end{eqnarray}
}

これらの両辺をそれぞれ \theta^j, \eta_j偏微分すると以下のようになる。

 \displaystyle{
\begin{eqnarray}
\frac{\partial \eta_i}{\partial \theta^j} &=& \frac{\partial^2 \psi}{\partial \theta^i \partial \theta^j} \\
&=& g_{ij}^{({\boldsymbol \theta})}
\end{eqnarray}
} ・・・(4)

 \displaystyle{
\begin{eqnarray}
\frac{\partial \theta^i}{\partial \eta_j} &=& \frac{\partial^2 \phi}{\partial \eta_i \partial \eta_j} \\
&=& g_{ij}^{({\boldsymbol \eta})}
\end{eqnarray}
} ・・・(5)

以上により、 {\boldsymbol \theta}座標、 {\boldsymbol \eta}座標におけるRiemann計量を凸関数を用いずに表すことが出来た。

接続係数の座標変換

最後に、接続係数の座標変換について述べる。 {\bf x}座標系から {\bf x}'座標系への接続係数の変換式は以下のようになる[2]。

 \displaystyle{
\Gamma{'}_{k'm'}^{i'} = \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^i} \Gamma_{km}^i + \frac{\partial^2 x^r}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^r}
}

この変換式は有名なので調べればすぐに出てくるが、添字を下げた版の \Gamma_{ijk}の座標変換式に関してはほとんど情報がない。幸いEMANさんのサイト[3]がヒントになったので、それを参考に変換式を導出してみる。

まず、上で示した変換式の両辺に g'_{i'l'}をかけて i'について和を取る。和の記号はEinsteinの規約により省略する。

 \displaystyle{
g'_{i'l'} \Gamma{'}_{k'm'}^{i'} = g'_{i'l'} \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^i} \Gamma_{km}^i + g'_{i'l'} \frac{\partial^2 x^r}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^r}
}

ここで、Riemann計量の座標変換式を利用する。これもEMANの物理学[4]から式を引用する。

 \displaystyle{
g'_{i'j'}  = \frac{\partial x^k}{\partial x'^{i'}} \frac{\partial x^l}{\partial x'^{j'}} g_{kl}
}

これを代入し、さらに左辺を添え字を下げた記号に置き換えると以下のようになる。

 \displaystyle{
\begin{eqnarray}
\Gamma{'}_{k'm'l'} &=& \frac{\partial x^i}{\partial x{'}^{i'}} \frac{\partial x^l}{\partial x{'}^{l'}} g_{il} \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^i} \Gamma_{km}^i + \frac{\partial x^s}{\partial x{'}^{i'}} \frac{\partial x^t}{\partial x{'}^{l'}} g_{st} \frac{\partial^2 x^r}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^r} \\
&=& \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x^l}{\partial x{'}^{l'}} \Gamma_{kml} + g_{st} \frac{\partial^2 x^s}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x^t}{\partial x{'}^{l'}}
\end{eqnarray}
} ・・・(6)

双対平坦性の導出

準備が整ったので本題に入る。少々天下り的だが、 \Gamma_{ikj}^{* ({\boldsymbol \eta})} \Gamma_{ikj}^{* ({\boldsymbol \theta})}に変換する式を考えてみる。

 \displaystyle{
\begin{eqnarray}
\Gamma_{ikj}^{* ({\boldsymbol \theta})}
&=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})}
 + g_{st}^{({\boldsymbol \eta})} \frac{\partial^2 \eta^s}{\partial \theta_i \partial \theta_k} \frac{\partial \eta^t}{\partial \theta_j} \\
&=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})}
 + \frac{\partial \theta_s}{\partial \eta^t} \frac{\partial^2 \eta^s}{\partial \theta_i \partial \theta_k} \frac{\partial \eta^t}{\partial \theta_j} \\
&=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})}
 + \frac{\partial^2 \eta^s}{\partial \theta_i \partial \theta_k} \frac{\partial \theta_s}{\partial \theta_j} \\
&=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})}
 + \frac{\partial^2 \eta^j}{\partial \theta_i \partial \theta_k} \\
&=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})}
 + \Gamma_{jki}^{* ({\boldsymbol \theta})} \\
&=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})}
 + \Gamma_{ikj}^{* ({\boldsymbol \theta})}
\end{eqnarray}
}

1つ目の等号は式(6)から、2つ目の等号は式(5)から、3つ目の等号は偏微分の連鎖律から、5つ目の等号は式(2)(4)から、6つ目の等号は式(3)からそれぞれ得られる。

右辺第2項と左辺が一致するため、任意の点において右辺第1項は0でなければならない。右辺第1項に式(4)を適用すると以下のようになる。

 \displaystyle{
\begin{eqnarray}
\Gamma_{ikj}^{* ({\boldsymbol \theta})}
&=& g_{i'i}^{({\boldsymbol \theta})} g_{k'k}^{({\boldsymbol \theta})} g_{j'j}^{({\boldsymbol \theta})} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})}
 + \Gamma_{ikj}^{* ({\boldsymbol \theta})}
\end{eqnarray}
}

今考えている状況においてRiemann計量はgivenであるため、右辺第1項が0になるためには \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} = 0になる他ない。つまり、双対座標系において接続 \nabla^{*}は平坦となるのである。

以上の議論をまとめてみる。多様体上にBregmanダイバージェンスから定まるRiemann計量が与えられ、更に双対接続 \nabla, \nabla^{*}が与えられたとする。接続 \nabla {\boldsymbol \theta}座標系で平坦となるとき、接続 \nabla^{*} {\boldsymbol \eta}座標系において平坦となる。このような接続の組が与えられた空間を双対平坦空間と呼ぶ。

蛇足

双対平坦空間の説明として、本稿のように接続係数の座標変換から直接的に平坦性を示す方法を採っている記事が全く見つからなかったため、本稿の計算は完全に私が考えたものである。先人がいないということもあり、正直あまり自信がない。本[1]から結論だけは分かっていたため、やや結論ありきで論理展開してしまっているような気がする。もし不備にお気づきの際はご指摘頂けるとありがたい。

まとめ

本稿ではBregmanダイバージェンスからRiemann計量が得られ、さらにそこから双対平坦な空間が導かれることを述べた。双対平坦性の導出には少々複雑な計算を行ったが、おかげでこれまでのもやもやが少しだけ晴れたような気がする。

情報幾何学関連の記事はまだまだ書きたい事が多いが、なんとか今年中には書き終えたい。

情報幾何学を嗜む ~Bregmanダイバージェンスとその双対~

最近、情報幾何学の勉強をしている。情報幾何学は日本の甘利先生という方が切り開いてきた分野で、主には確率分布のパラメータが成す空間をリーマン多様体と捉えることで、確率分布族に対して幾何学的な解釈を与えるものである。

情報幾何学情報科学の一分野でありながら、微分幾何学の理解を要する難解なものである。はっきり言って、情報系の人間で可微分多様体やらリーマン計量やら接続やらを理解している人は一握りであろう。私も情報系、それも工学部の出身であるから、甘利先生の本を初めて手に取った修士2年のときは、あまりの難しさに一瞬で心が折れたのを覚えている。

しかし時は流れ、私も今ではわずかばかり数学の心が分かるようになってきた。そこで、いよいよこの難攻不落の要塞に攻めいってみようというわけである。

というわけで、本稿から始まるいくつかの記事の中で、情報幾何学における主要なトピックについて私が理解したところを書き連ねてみようと思う。本稿ではその第一歩として、Bregmanダイバージェンスとその双対ダイバージェンスについて考えてみる。

ダイバージェンス

情報幾何学を語る上でダイバージェンスの存在は外せない。ダイバージェンスの定義を[1]から引用する*1*2

次の3条件を満たす2点関数 D[P : Q]ダイバージェンスと呼ぶ.
1)  D[P : Q] \ge 0.
2)  P = Qのとき, このときに限り,  D[P : Q] = 0.
3)  P点と Q点が近いとし, それぞれの座標を,  {\boldsymbol \xi},\ {\boldsymbol \xi} + d{\boldsymbol \xi}とする. このとき,  D[{\boldsymbol \xi} : {\boldsymbol \xi} + d{\boldsymbol \xi}]テイラー展開すると,
 \displaystyle{
D[{\boldsymbol \xi} : {\boldsymbol \xi} + d{\boldsymbol \xi}] = \frac{1}{2} \sum g_{ij}({\boldsymbol \xi}) d\xi_i d\xi_j
}
と2次の項が最初に出るが, 行列
 \displaystyle{
G({\boldsymbol \xi}) = (g_{ij}({\boldsymbol \xi}))
}
は正定値対称である.

ただし、 {\boldsymbol \xi}は有限次元ベクトルである。

ダイバージェンスは距離の公理を満たしていない。すなわち、一般には D[P : Q] = D[Q : P]とならない。この醜い非対称性が後に華麗な蝶へと変貌を遂げるのであるが、それは双対ダイバージェンスのところで説明する。

Bregmanダイバージェンス

ダイバージェンスの中でも特に重要なものの1つにBregmanダイバージェンスがある。これは滑らかな狭義凸関数 \psi({\boldsymbol \xi})*3を用いて以下のように定義される[1]。

まず、点 {\boldsymbol \xi}'における接超平面の方程式は以下のようになる。

 \displaystyle{
z = \psi({\boldsymbol \xi}') + \nabla \psi({\boldsymbol \xi}') ({\boldsymbol \xi} - {\boldsymbol \xi}')
}

 {\boldsymbol \xi}において、この接超平面と元の関数 \psi({\boldsymbol \xi})の差は以下のようになる。

 \displaystyle{
D[{\boldsymbol \xi} : {\boldsymbol \xi}'] = \psi({\boldsymbol \xi}) - \psi({\boldsymbol \xi}') - \nabla \psi({\boldsymbol \xi}') ({\boldsymbol \xi} - {\boldsymbol \xi}')
}

これを凸関数 \psiから導かれる {\boldsymbol \xi}から {\boldsymbol \xi}'へのBregmanダイバージェンスと呼ぶ。

Bregmanダイバージェンスダイバージェンスの定義を満たすことは自明ではないため、本来であれば証明すべきである。実際、ノートで計算して確かめることは出来たのだが、それをブログに書き起こす気力と時間がなくなってしまったため、ここでは割愛する。

参考までに計算の指針だけ述べておく。まず、 D[ {\boldsymbol a} : {\boldsymbol \xi} ]について {\boldsymbol \xi} = {\boldsymbol a}における多変数のTaylor展開を計算する。0次の項は D[{\boldsymbol a} : {\boldsymbol a}] = 0である。1次の項も計算すると0になる。2次の項は計算すると \psiのHesse行列に等しくなる。 \psiは滑らかな凸関数と仮定しているため、これは正定値対称となる。

Legendre変換による双対空間

Bregmanダイバージェンスを定義するために凸関数が登場した。凸関数といえば皆さん何を思い浮かべるだろうか?いろいろあると思うが、凸関数にまつわる重要な概念としてLegendre変換が挙げられる。Legendre変換を行うことで、凸関数が定義された空間の双対空間、及び双対凸関数を得ることができる。

最終的には多変数の場合を考える必要があるが、まずは1変数の場合から考えてみよう。

1変数凸関数のLegendre変換

1変数の滑らかな凸関数 \psi(x)を考える。滑らかな凸関数の導関数は異なる xに対して必ず異なる値を取る。逆に適当な実数 pを与えると、それを導関数の値とするような点 xが一意に決まる。

すなわち、 \psi'(x)の定義域を S、値域を Dとすると、 \psi' : S \ni x \mapsto p \in D全単射となる。 Dのことを双対空間と呼ぶ。

ここで、 \psi(x)に以下のような変換を施すことで双対空間に対して新たな関数 \psi^{*}(p)を定める事ができる。

 \displaystyle{
\psi^{*}(p) = \max_{x}(px - \psi(x))
}

これをLegendre変換と呼ぶ。

右辺の px - \psi(x)を最大にする xについて考えてみよう。最大値を与える xにおいては、この式を x微分したものが0となる必要がある。すなわち、以下が成立する。

 \displaystyle{
\begin{eqnarray}
\frac{d}{dx}(px - \psi(x)) &=& 0 \\
p - \psi'(x) &=& 0 \\
p &=& \psi'(x)
\end{eqnarray}
}

すなわち、 \psi'(x)の値が pとなるような xにおいて px - \psi(x)は最大となる。これはつまり、 Dの元と一対一に対応する Sの元を選べば良いということを意味する。

詳細は後述するが、実は \psi^{*}(p)も凸関数であり、これを双対凸関数と呼ぶ。そのため、 \psi^{*}(p)に対して再度Legendre変換を施すことができるが、その結果は元の関数 \psi(x)と一致する[2]。つまり、Legendre変換の逆変換はLegendre変換そのものである。これより、双対性というのはあくまで相対的な概念に過ぎないことが分かる。

双対凸関数が凸関数であることの証明

双対凸関数が凸関数であることは自明ではないので、以下で証明してみよう。 \psi^{*}(p)の定義式において x pの関数であると考えると、2階導関数は以下のようになる。

 \displaystyle{
\begin{eqnarray}
\frac{\partial^2 \psi^{*}}{\partial p^2} &=& \frac{\partial^2}{\partial p^2} (px - \psi(x)) \\
&=& \frac{\partial}{\partial p} (x + px' - \psi'(x) x') \\
&=& 2x' - \psi''(x){x'}^2 + x''(p - \psi'(x))
\end{eqnarray}
}

 p = \psi'(x)を代入すると以下のようになる。

 \displaystyle{
\frac{\partial^2 \psi^{*}}{\partial p^2} = 2x' - \psi''(x){x'}^2
}

 p = \psi'(x)の両辺をpで微分して整理すると x' = \frac{1}{\psi''(x)}となる。これを代入すると以下のようになる。

 \displaystyle{
\frac{\partial^2 \psi^{*}}{\partial p^2} = \frac{1}{\psi''(x)}
}

2階導関数が瞬間的にでも0になることがあるような関数は面倒なので除外して考えると、 \psi''(x)は上に凸なら常に負、下に凸なら常に正となる。よって \psi^{*}{''}(p)の符号も一定となるため、 \psi^{*}(p)は凸関数である。

多変数凸関数のLegendre変換

少々くどいかもしれないが、1変数のときと同じ議論を多変数についても行ってみよう。

2つ以上の変数を持つ滑らかな凸関数 \psi({\boldsymbol \xi})を考える。滑らかな凸関数の勾配ベクトルは異なる {\boldsymbol \xi}に対して必ず異なるベクトルとなる。逆に適当な実数値ベクトル {\boldsymbol \xi}^{*}を与えると、それを勾配ベクトルとするような点 {\boldsymbol \xi}が一意に決まる。

この対応関係により、定義域と \psi({\boldsymbol \xi})の勾配ベクトルが取り得る値の間に一対一の対応関係が得られる。 {\boldsymbol \xi}^{*}が成す空間のことを双対空間と呼ぶ。

すなわち、 \nabla \psi({\boldsymbol \xi})の定義域を S、値域を Dとすると、 \nabla \psi : S \ni {\boldsymbol \xi} \mapsto {\boldsymbol \xi}^{*} \in D全単射となる。 Dのことを双対空間と呼ぶ。

ここで、 \psi({\boldsymbol \xi})に以下のような変換を施すことで双対空間に対して新たな関数 \psi^{*}({\boldsymbol \xi}^{*})を定める事ができる。

 \displaystyle{
\psi^{*}({\boldsymbol \xi}^{*}) = \max_{{\boldsymbol \xi}}({\boldsymbol \xi} \cdot {\boldsymbol \xi}^{*} - \psi({\boldsymbol \xi}))
}

これをLegendre変換と呼ぶ。

右辺の {\boldsymbol \xi} \cdot {\boldsymbol \xi}^{*} - \psi({\boldsymbol \xi})を最大にする {\boldsymbol \xi}について考えてみよう。最大値を与える {\boldsymbol \xi}においては、勾配ベクトルが零ベクトルとなる必要がある。すなわち、以下が成立する。

 \displaystyle{
\begin{eqnarray}
\nabla ({\boldsymbol \xi} \cdot {\boldsymbol \xi}^{*} - \psi({\boldsymbol \xi})) &=& 0 \\
{\boldsymbol \xi}^{*} - \nabla \psi({\boldsymbol \xi}) &=& 0 \\
{\boldsymbol \xi}^{*} &=& \nabla \psi({\boldsymbol \xi})
\end{eqnarray}
}

すなわち、 \nabla \psi({\boldsymbol \xi})の値が {\boldsymbol \xi}^{*}となるような {\boldsymbol \xi}において {\boldsymbol \xi} \cdot {\boldsymbol \xi}^{*} - \psi({\boldsymbol \xi})は最大となる。これはつまり、 Dの元と一対一に対応する Sの元を選べば良いということを意味する。

証明は大変そうなので諦めるが、1変数の場合と同じく \psi^{*}({\boldsymbol \xi}^{*})も凸関数であり、これを双対凸関数と呼ぶ。そのため、 \psi^{*}({\boldsymbol \xi}^{*})に対して再度Legendre変換を施すことができるが、その結果が元の関数 \psi({\boldsymbol \xi})と一致するというのも1変数の場合と同様である。

双対ダイバージェンス

双対凸関数は凸関数なので、これを用いると双対空間にもBregmanダイバージェンスを定義できる。

 \displaystyle{
D^{*}[{\boldsymbol \xi}^{*} : {\boldsymbol \xi}'^{*}] = \psi^{*}({\boldsymbol \xi}^{*}) - \psi^{*}({\boldsymbol \xi}'^{*}) - \nabla \psi^{*}({\boldsymbol \xi}'^{*}) ({\boldsymbol \xi}^{*} - {\boldsymbol \xi}'^{*})
}

これを双対ダイバージェンスと呼ぶ。

元のダイバージェンスとの関係

双対ダイバージェンスと元のダイバージェンスとの間には重要な関係がある。以下でそれを導いてみよう。

 {\boldsymbol \xi}, {\boldsymbol \xi}'について、双対空間において対応する点がそれぞれ {\boldsymbol \xi}^{*}, {\boldsymbol \xi}'^{*}であるとする。このとき以下の式が成り立つ。

 \displaystyle{
\begin{eqnarray}
\psi^{*}({\boldsymbol \xi}^{*}) &=& {\boldsymbol \xi} \cdot {\boldsymbol \xi}^{*} - \psi({\boldsymbol \xi}) \\
\psi^{*}({\boldsymbol \xi}'^{*}) &=& {\boldsymbol \xi}' \cdot {\boldsymbol \xi}'^{*} - \psi({\boldsymbol \xi}') \\
\nabla \psi^{*}({\boldsymbol \xi}'^{*}) &=& {\boldsymbol \xi}'
\end{eqnarray}
}

これらを双対ダイバージェンスの式に代入すると以下のようになる。

 \displaystyle{
\begin{eqnarray}
D^{*}[{\boldsymbol \xi}^{*} : {\boldsymbol \xi}'^{*}] &=& ({\boldsymbol \xi} \cdot {\boldsymbol \xi}^{*} - \psi({\boldsymbol \xi})) - ({\boldsymbol \xi}' \cdot {\boldsymbol \xi}'^{*} - \psi({\boldsymbol \xi}')) - {\boldsymbol \xi}' ({\boldsymbol \xi}^{*} - {\boldsymbol \xi}'^{*}) \\
&=& \psi({\boldsymbol \xi}') - \psi({\boldsymbol \xi}) - {\boldsymbol \xi}^{*}({\boldsymbol \xi}' - {\boldsymbol \xi})
\end{eqnarray}
}

これに  {\boldsymbol \xi}^{*} = \nabla \psi({\boldsymbol \xi})を代入すると以下のようになる。

 \displaystyle{
\begin{eqnarray}
&& \psi({\boldsymbol \xi}') - \psi({\boldsymbol \xi}) - \nabla \psi({\boldsymbol \xi}) ({\boldsymbol \xi}' - {\boldsymbol \xi}) \\
&=& D[{\boldsymbol \xi}' : {\boldsymbol \xi}]
\end{eqnarray}
}

結局、以下の式が得られた。

 \displaystyle{
D^{*}[{\boldsymbol \xi}^{*} : {\boldsymbol \xi}'^{*}] = D[{\boldsymbol \xi}' : {\boldsymbol \xi}]
}

ダイバージェンスの定義を説明した際、ダイバージェンスは対称性を満たさないということを述べた。しかし、上式が示す通りBregmanダイバージェンスについては2つの引数を入れ替えたものは双対ダイバージェンスに一致するのである。元の空間だけでは対称性がないように見えるが、双対空間まで広げて考えるとこのように美しい対称性が現れるというのは非常に面白い。

ナブラを使わない表現方法

Bregmanダイバージェンスの定義式にはナブラ ( \nabla) が含まれており少々複雑である。実はこれはちょっとした式変形で回避できる。

これまでの議論が追えていれば簡単なので、以下に式変形だけ示す。

 \displaystyle{
\begin{eqnarray}
D[{\boldsymbol \xi} : {\boldsymbol \xi}'] &=& \psi({\boldsymbol \xi}) - \psi({\boldsymbol \xi}') - \nabla \psi({\boldsymbol \xi}') ({\boldsymbol \xi} - {\boldsymbol \xi}') \\
&=& \psi({\boldsymbol \xi}) - \psi({\boldsymbol \xi}') - {\boldsymbol \xi}'^{*} ({\boldsymbol \xi} - {\boldsymbol \xi}') \\
&=& \psi({\boldsymbol \xi}) + ({\boldsymbol \xi}' \cdot {\boldsymbol \xi}'^{*} - \psi({\boldsymbol \xi}')) - {\boldsymbol \xi}'^{*} \cdot {\boldsymbol \xi} \\
&=& \psi({\boldsymbol \xi}) + \psi^{*}({\boldsymbol \xi}'^{*}) - {\boldsymbol \xi}'^{*} \cdot {\boldsymbol \xi}
\end{eqnarray}
}

まとめ

本稿では情報幾何学のトピックのうち、Bregmanダイバージェンスとその双対ダイバージェンスに関する事柄について述べた。ダイバージェンスは対称性を持たないが、BregmanダイバージェンスについてはLegendre変換による双対空間まで考えることで美しい対称構造が得られることを確認した。

本稿ではまだ微分幾何学らしい概念は登場しなかった。つまり、ここで述べたことは情報幾何学の中ではまだまだ序の口ということである。次回以降、少しずつ幾何学的な内容に踏み込んでいきたいと思う。

*1:甘利先生の本[1]ではダイバージェンス微分可能性などに触れられないままいきなりTaylor展開しているところがもやもやする。あまり細かい数学的議論に重きを置いた本ではないので、これについては滑らかな関数であり、かつ剰余項は収束すると仮定を置いてしまうしかないのだろう。

*2:ダイバージェンスの引数に点を入れたり点の座標を入れたりと記号がぶれているが、本[1]に合わせた結果なので好意的に解釈して頂けるとありがたい。

*3:本[1]ではBregmanダイバージェンスの定義に用いる凸関数の性質について厳密な条件が記載されていない。議論を簡単にするために、ここでは滑らかな狭義凸関数であるとした。

クーポンコレクター問題の確率分布を解き明かす

クーポンコレクター問題というものをご存知だろうか?これは、例えば6種類のおもちゃが出るガシャポン*1があったとして、何回くらい引けば全種類引き当てる事ができるか?というようなことを考える問題である。

この問題に対して、平均や分散がどうなるかということは非常によく語られることである[1]。また、時として不等式による評価について議論している記事を見かけることもある[2]。

しかし、肝心の確率分布については議論される事が非常に少ない。あまりにも記事を見かけないので、私は当初クーポンコレクター問題の確率分布を求めることは不可能なのではないかとさえ思っていた。

それでもめげずに調べ続けた結果、私はついに確率分布について結論を出しているページを見つけた。本稿ではそれを紹介し、喜びを分かち合いたいと思う。

第2種スターリング数

クーポンコレクター問題の確率分布を求めるためには、第2種スターリング数について理解しておく必要がある。少し長いが、定義をWikipediaから引用する[3]。

第2種スターリング数
第2種スターリング数 (Stirling number of the second kind)  \{{\textstyle {n \atop k}}\}は、 x^{n}を下降階乗冪 x^{\underline {k}}\equiv x\,(x-1)(x-2)\cdots (x-k+1)級数:

 \displaystyle{
x^{n}=\sum _{k=0}^{n}\left\{{n \atop k}\right\}\,x^{\underline {k}}
}

で展開したときの展開係数として定義される。この定義では、 0\leq k\leq nである。便宜上、 \{{\textstyle {0 \atop 0}}\}=1と定義する。第2種スターリング数は

 \displaystyle{
\left\{{n \atop k}\right\}=\left\{{n-1 \atop k-1}\right\}+k\,\left\{{n-1 \atop k}\right\}
}

なる漸化式で計算できる。

定義も大切なのだが、第2種スターリング数は以下のように特徴付けられるということが重要である[3]。

第2種スターリング数の特徴付け
第2種スターリング数 \{{\textstyle{n \atop k}}\}は、組合せ数学において、番号づけされた n個の要素をグループ k個に分割する組み合わせの数を与える。分割する要素は番号付けされているので個別に区別できるが、グループは順序を特に区別しないものとする。

クーポンコレクター問題の確率分布

準備が整ったので、確率分布を求めてみよう。以下の議論は全て[4][5]を参考にした。

集めるクーポンの種類を k種類とし、初めて全種類のクーポンを取得できるまでの試行回数を表す確率変数を Nとする。この時、 n回目の試行で初めて全種類のクーポンを取得できる確率 P(N = n)を求める。

 n回の試行により出現し得るクーポンの出方の総数は k^nである。もし n回目の試行で初めて全種類のクーポンが出るパターンの総数が分かれば、それを k^nで割ったものが求める確率である。

 n回目の試行で初めて全種類のクーポンが出揃うということは、 n-1回目の時点で k-1種類のクーポンがすでに出ている必要がある。このパターンの総数を求めるために、 n-1回目までの試行に対して1から順に番号を割り振る。そして、これらの番号付けられた試行を k-1個のグループに分ける。同じグループに分けられた試行については同じクーポンが得られたと考える。この分け方のパターンの総数は第2種スターリング数 \{\textstyle{n-1 \atop k-1}\}となる。

第2種スターリング数は分けられたグループの間の順序は区別しないが、今はクーポンの種類は区別されるので、 (k-1)!を掛ける。さらに、 n-1回目までに出る k-1種類のクーポンは k種類のうちどれであるかは問わないので、全てのパターンをカウントする必要がある。そのため、 \left(\textstyle{k \atop k-1}\right) = kを掛ける。結局、 n-1回目の時点で k-1種類のクーポンが出現するパターンの総数は k! \{\textstyle{n-1 \atop k-1}\}となる。

 n回目の試行でまだ出ていない最後のクーポンが出るパターンの総数は1なので、 n回目の試行で初めて全種類のクーポンが出るパターンの総数は k! \{\textstyle{n-1 \atop k-1}\}となる。以上の議論により次の式を得る。

 \displaystyle{
P(N = n) = \frac{k!}{k^n} \{\textstyle{n-1 \atop k-1}\}
}

計算してみよう

 n, kにいくつか具体的な数値を入れて P(N = n)を計算してみよう。手計算ではやっていられないので、pythonを利用する。第2種スターリング数はsympyのstirling関数を用いて計算することが出来るので、それを利用する[6]。数値だけ示しても分かり辛いので、結果をmatplotlibでグラフ化した。Python自体はpydroid3を使って実行した[7]。なお、sympyなどの必要なパッケージはあらかじめpipでインストールしておく必要がある。

計算に用いたソースコードを以下に示す。

from sympy.functions.combinatorial.numbers import stirling
import matplotlib.pyplot as plt
import math

startCouponKind = 2
numCouponKind = 6
numTrial = 30
for k in range(startCouponKind, numCouponKind+1):
  x = []
  y = []
  for n in range(1, numTrial+1):
    stir = stirling(n-1, k-1, kind = 2)
    prob = math.factorial(k) * stir / (k**n)
    x.append(n)
    y.append(prob)
  plt.plot(x, y, label='k = {}'.format(k))
plt.legend()
plt.savefig('/storage/emulated/0/coupon.png')

得られたグラフを以下に示す。

f:id:peng225:20190314084353j:plain

途中でピークを持ち、右側に裾野が広がっている様子が見て取れる。 nが小さいときに確率が0となる領域があるが、これはクーポンの種類よりも試行回数が少ないときの様子が表れているものである。

また、 kの増え方に対して、ピークの位置が右に移動していく速度の方がやや速いように見える。実際、全種類コンプリートするまでの試行回数の期待値は O(k \mathrm{log} k)なので、これは理論的にも辻褄が合っている[1]。

まとめ

本稿ではクーポンコレクター問題の確率分布を明らかにし、実際に計算を行った結果を示した。クーポンコレクター問題ではパターンを数え上げる事が難しかったが、その難しさを既知の概念である第2種スターリング数に押し込めることで、理論的にスッキリとした結論を得ることができた。

これまで組み合わせ数学には興味がなかったが、本稿を書き上げるうちにその面白さを垣間見る事ができた。またいずれ体系的に勉強しよう。

*1:これの呼び方は地方によって差があるような気がするが、自分の流儀で呼ばせて頂く。

いくつかのLie群がLie群であることを定義に戻って確かめる

Lie 群は難しい。この理由の1つは、議論の前提となる領域が広いことにあると思われる。Lie群とは群であり多様体であるような数学的対象である。そのため、定義を理解するだけで群論多様体の知識が求められる。また、Lie群の教科書で最初に扱われるような基本的なLie群は行列群である。しかも、そのコンパクト性に着目した議論も多い。そのため、線形代数位相空間の基礎的な事項も理解しておくことが望ましい。

繰り返すが、Lie群は難しい。私はここ最近Lie群を勉強し始めて、この事実を痛感している。こういう時は足元を一歩ずつ踏み固めて行くしかない。その一環として、本稿ではいくつかの基本的なLie群について、それらが本当にLie群になっていることを定義に照らし合わせて確認してみる。

本稿では私の独断で以下の2つのLie群を扱う。

準備

Lie群の定義

Lie群の定義を[1]より引用する。

多様体 Gが群構造を持ち、その群演算
 \displaystyle{
G \times G \to G;\ (x, y) \mapsto xy,
\ \ G \to G;\ x \mapsto x^{-1}
}
 C^{\infty}写像になるとき、 GLie群と呼ぶ。

多様体上の写像 C^{\infty}級であるということ

Lie群の定義の中で C^{\infty}写像という言葉が出てきた。この定義を[2]より引用する。

1点においてCs
連続写像 f: M \to Nが, 1点 p \in Mにおいて C^s級であるとは,  pを含む M C^r級座標近傍 (U; x_1, \cdots , x_m) f(p)を含む N C^r級座標近傍 (V; y_1, \cdots , y_n)が存在して,
(1)  f(U) \subset Vかつ
(2)  (U; x_1, \cdots , x_m) (V; y_1, \cdots , y_n)に関する fの局所座標表示が C^s級である,
この2つの条件がなりたつことである. ただし,  1 \le s \le r.
Cs写像
 f: M \to N C^s写像 (mapping of class  C^s) であるとは,  Mの各点 pにおいて f C^s級であることである.

上記定義において s = \inftyとすれば C^{\infty}写像の定義となる。

部分多様体に関する定理

後で使う定理について説明するために、正則点・臨界点、及び正則値・臨界値の定義を述べておく[2]。

正則点・臨界点
 Mの点 pにおける f微分
 \displaystyle{
(df)_p : T_p (M) \to T_{f(p)} (N)
}
が‘上へ’の線形写像であるとき,  p fの正則点 (regular point) とよぶ.  (df)_pが‘上へ’の線形写像でないとき,  p fの臨界点 (critical point) という.
正則値・臨界値
 f : M \to Nの臨界点全部の集合 (臨界点集合) を C_fで表す ( C_f Mの部分集合である) .
 C_fの像 f(C_f)に属する Nの点 q fの臨界値 (critical value) とよぶ. 臨界値でない Nの点を fの正則値 (regular value) という.

以下の定理を後の議論で使用する[2]。

部分多様体に関する定理
 q \in N C^r写像 f: M \to Nの正則値で,  f^{-1}(q) \neq \phiであるとすると, 逆像 f^{-1}(q) M (m-n)次元 C^r級部分多様体である.

Lie群であることの確認

以上で準備が整ったので、Lie群であることの確認に移る。本稿では群であることの確認はサボり、それぞれのLie群について以下の3点を確認した。

  •  C^{\infty}多様体であること
  • 群演算が C^{\infty}写像であること
  • 逆元を取る操作が C^{\infty}写像であること

一般線形群 \mathrm{GL}(n, \mathbb{R})

 C^{\infty}多様体であること

 \mathbb{R} n次正方行列全体の集合を  \mathrm{M}(n, \mathbb{R})と書く。 \mathrm{GL}(n, \mathbb{R}) \mathrm{M}(n, \mathbb{R})の部分集合のうち、以下のように表されるものである。

 \displaystyle{
\{A \in \mathrm{M}(n, \mathbb{R}) | \mathrm{det} (A) \neq 0\}
}

実は、 \mathrm{GL}(n, \mathbb{R}) \mathrm{M}(n, \mathbb{R})の開部分集合となる。詳細は[3]の命題1.17に譲り、ここでは概要だけ説明する。まず、 \mathrm{det} :  \mathrm{M}(n, \mathbb{R}) \to \mathbb{R}連続写像である。このとき、 \mathrm{GL}(n, \mathbb{R}) = \mathrm{det}^{-1}\left(\{x \in \mathbb{R} | x \ne 0\}\right)と書ける。 \{x \in \mathbb{R} | x \ne 0\} \mathbb{R}の開集合なので、連続写像 \mathrm{det}による逆像も開集合となる。

ここで、 \mathrm{M}(n, \mathbb{R})に属する行列の各成分を座標と見なすと、これは \mathbb{R}^{n^2}と同一視できる。そのため、
 \mathrm{M}(n, \mathbb{R}) C^{\infty}多様体となる。その開部分集合も C^{\infty}多様体となるので、 \mathrm{GL}(n, \mathbb{R}) C^{\infty}多様体となる。このような多様体を開部分多様体と呼ぶ[2]。

群演算が C^{\infty}写像であること

 \mathrm{GL}(n, \mathbb{R})の群演算は通常の行列の掛け算である。この写像 \mathrm{mul} : \mathrm{GL}(n, \mathbb{R}) \times  \mathrm{GL}(n, \mathbb{R}) \to \mathrm{GL}(n, \mathbb{R})と表す。以下で \mathrm{mul} C^{\infty}級であることを示す。

 \mathrm{GL}(n, \mathbb{R})はそれ自身 \mathbb{R}^{n^2}の開集合と見なせるため、そのアトラスとして自分自身だけを座標近傍として含む、要素数1の集合族を取れる。  \mathrm{GL}(n, \mathbb{R}) \times  \mathrm{GL}(n, \mathbb{R})についても、積多様体のアトラスの定義を考えると、やはりアトラスとして自分自身だけを要素として含む集合族を取れる。よって \mathrm{GL}(n, \mathbb{R})  \mathrm{GL}(n, \mathbb{R}) \times  \mathrm{GL}(n, \mathbb{R})は共に C^{\infty}多様体である。

任意の点 (A, B) \in \mathrm{GL}(n, \mathbb{R}) \times  \mathrm{GL}(n, \mathbb{R})について、 \mathrm{mul}( (A, B) ) = ABの各成分は A, Bの成分の多項式となる。よって \mathrm{mul} (A, B)において C^{\infty}級である。 (A, B)は任意なので、 \mathrm{mul} C^{\infty}写像である。

逆元を取る操作が C^{\infty}写像であること

 \mathrm{GL}(n, \mathbb{R})の元の逆元を取る操作とは、逆行列を求める操作を意味する。この写像 \mathrm{inv} : \mathrm{GL}(n, \mathbb{R}) \to \mathrm{GL}(n, \mathbb{R})と表す。以下で \mathrm{inv} C^{\infty}級であることを示す。

任意の点 A \in \mathrm{GL}(n, \mathbb{R})について、 \mathrm{inv}(A) = A^{-1}である。逆行列は余因子行列を行列式で割ることによって得られるため、 A^{-1}の各成分は Aの成分の有理式となる。よって \mathrm{inv} Aにおいて C^{\infty}級である。 Aは任意なので、 \mathrm{inv} C^{\infty}写像である。

 \mathrm{inv}の定義域は \mathrm{GL}(n, \mathbb{R})なので、行列式は常に0ではないことに注意されたい。

直交群 \mathrm{O}(n)

 C^{\infty}多様体であること

これを示すのは思いのほか難しいため、証明のアウトラインだけ述べることにする。詳細は[4]を参照されたい。

 n次実対称行列全体の集合を \mathrm{S}(n)とする。 \mathrm{S}(n) \mathbb{R}^{n(n+1)/2}と同一視できるため、 n(n+1)/2 C^{\infty}多様体である。

この時、以下のような写像を考える。

 \displaystyle{
f : \mathrm{M}(n, \mathbb{R}) \to \mathrm{S}(n), A \mapsto AA^T
}

 f C^{\infty}写像である。 Aが直交行列のとき、その逆行列 A^Tとなる。そのため、 \mathrm{O}(n) = f^{-1}(I)となる。ここで、 I単位行列である。

もし I fの正則値であれば、先ほど提示した定理により \mathrm{O}(n) n(n-1)/2 C^{\infty}多様体となる。そのためには、 \mathrm{O}(n)の全ての点における微分全射になれば良い。具体的に微分計算を行い、それが全射であることを確かめるアプローチになるが、体力の限界なのでこれ以降は[4]にお任せする。

群演算が C^{\infty}写像であること

 \mathrm{O}(n)の群演算は  \mathrm{GL}(n, \mathbb{R})における群演算を  \mathrm{O}(n) \times  \mathrm{O}(n)に制限した写像 \mathrm{mul} |_{\mathrm{O}(n) \times \mathrm{O}(n)}によって与えられる。これは包含写像 i : \mathrm{O}(n) \times \mathrm{O}(n) \to \mathrm{GL}(n, \mathbb{R}) \times  \mathrm{GL}(n, \mathbb{R}) \mathrm{mul}によって以下のように書ける。

 \displaystyle{
\mathrm{mul} |_{\mathrm{O}(n) \times \mathrm{O}(n)} = \mathrm{mul} \circ i
}

 i \mathrm{mul}はどちらも C^{\infty}級であるため、それらの合成写像 C^{\infty}級となる。よって \mathrm{O}(n)の群演算は C^{\infty}写像である。

逆元を取る操作が C^{\infty}写像であること

群演算とほぼ同じように制限写像を考えれば良い。詳細は割愛する。

まとめ

本稿では一般線形群と直交群が共にLie群であることを確認した。どちらも非常に有名なLie群でありながら、それを示すのは意外と大変だった。Lie群を理解するまでの道のりは険しい。