情報幾何学を嗜む～微分幾何学的な双対平坦空間の導入～

前回の記事ではBregmanダイバージェンスから導かれる双対空間について述べた。本稿ではこれらの空間に定められる双対接続、及びそこから導かれる双対平坦空間について考えてみる。

基本的には本[1]を参考にしているのだが、この本はどうも双対平坦な空間の導出がざっくりしすぎていて、少々納得感に欠けた。そのため、本稿では双対平坦な空間の導出に関する計算を少しだけ泥臭く書いてみることにする。

なお、本稿では全体的にEinsteinの規約を用いているので注意されたい。

ダイバージェンスから導かれるRiemann計量

前回の記事でダイバージェンスの定義について説明した。その中で、Taylor展開した際の2次の項の係数が正定値対称行列になるという条件があった。この正定値対称という条件はいかにもRiemann計量を想起させる。実際、情報幾何学ではこれをRiemann計量として使うことで、確率分布のパラメータの空間をRiemann多様体と見なすのである。

Bregmanダイバージェンスの場合の例

例として、以下の2変数凸関数から導かれるBregmanダイバージェンスについて、そこから得られるRiemann計量を計算してみよう。

$\displaystyle{ f(x, y) = x^2 + 3xy + 4y^2 }$

始めに $f(x, y)$ が凸関数であることを確認する。Hesse行列は以下のようになる。

$\displaystyle{ G = \left( \begin{array}{cc} 2 & 3 \\ 3 & 8 \end{array} \right) }$

$\mathrm{det} G = 7 \gt 0$ となるため、これは凸関数である。

次に、Riemann計量を求めてみる。と言っても、前回の記事でBregmanダイバージェンスをTaylor展開した際の2次の項は、元になる凸関数のHesse行列に等しいことを述べた。そのため、結局 $G$ がリーマン計量である。

よく見ると $G$ は確かに対称行列になっている。これは $f(x, y)$ が $C^2$ 級なので当然である。また、以下の計算により正定値行列であることも分かる。

$\displaystyle{ \begin{eqnarray} \left( \begin{array}{cc} x & y \end{array} \right) G \left( \begin{array}{c} x \\ y \end{array} \right) &=& 2(x^2 + 3xy + 4y^2) \\ &=& 2\left(\left(x + \frac{3}{2}y \right)^2 + \frac{7}{4}y^2 \right) \gt 0 \end{eqnarray} }$

ただし、 $(x, y) \ne (0, 0)$ である。

Riemann計量を成分毎に書き下すと以下のようになる。

$\displaystyle{ \begin{eqnarray} g_{1, 1} &=& 2 \\ g_{1, 2} &=& g_{2, 1} = 3 \\ g_{2, 2} &=& 8 \end{eqnarray} }$

双対接続

次に、多様体の接続について考えてみる。情報幾何学において特に重要な概念として双対接続がある。少々難しい概念なので、順を追って説明していこう。

接続とは

ざっくり言うと、接続とは多様体の異なる点における接空間の間に対応関係を与えるものである。特に、その対応関係にある種の線形性があるものをAffine接続と呼ぶ。Affine接続を説明すると長くなるので、詳細は[2]などを参照のこと。

Levi-Civita接続

Affine接続のうち、さらに以下の2つの性質を満たすものをLevi-Civita接続と呼ぶ。

$\nabla_{{\bf X}} {\bf Y} - \nabla_{{\bf Y}} {\bf X} = [{\bf X}, {\bf Y}]$ （対称な接続）
${\bf X} g({\bf Y}, {\bf Z}) = g(\nabla_{{\bf X}}{\bf Y}, {\bf Z}) + g({\bf Y}, \nabla_{{\bf X}}{\bf Z})$ （計量との整合性）

Levi-Civita接続はベクトルの平行移動に対して計量を保つため、Riemann計量と強い依存関係がある。実際、Levi-Civita接続の接続係数はRiemann計量から一意に定まる。詳細は[2]などを参照のこと。

ここで、 ${\bf X} = \partial_i, {\bf Y} = \partial_j, {\bf Z} = \partial_k$ を1つ目の式に代入してみる。ただし、局所座標系を $(x^1, x^2, \cdots , x^n)$ とし、 $\partial_i = \frac{\partial}{\partial x^i}$ とする。

$\displaystyle{ \begin{eqnarray} \nabla_{\partial_i} \partial_j - \nabla_{\partial_j} {\partial_i} &=& [\partial_i, \partial_j] \\ \Gamma_{ij}^l \partial_l - \Gamma_{ji}^l \partial_l &=& \partial_i \partial_j - \partial_j \partial_i \\ \Gamma_{ij}^l \partial_l &=& \Gamma_{ji}^l \partial_l \end{eqnarray} }$

成分を比較して $\Gamma_{ij}^l = \Gamma_{ji}^l$ となる。

次に、 ${\bf X} = \partial_i, {\bf Y} = \partial_j, {\bf Z} = \partial_k$ を2つ目の式に代入してみる。

$\displaystyle{ \begin{eqnarray} \partial_i g(\partial_j, \partial_k) &=& g(\nabla_{\partial_i} \partial_j, \partial_k) + g(\partial_j, \nabla_{\partial_i} \partial_k) \\ \partial_i g_{jk} &=& g(\Gamma_{ij}^l \partial_l, \partial_k) + g(\partial_j, \Gamma_{ik}^l \partial_l) \\ \partial_i g_{jk} &=& \Gamma_{ij}^l g_{lk} + \Gamma_{ik}^l g_{jl} \end{eqnarray} }$

最後の式の右辺で $\Gamma_{ijk} = \Gamma_{ij}^l g_{lk}$ などの置き換えをすると以下のようになる。

$\displaystyle{ \partial_i g_{jk} = \Gamma_{ijk} + \Gamma_{ikj} }$

双対接続

Levi-Civita接続における計量との整合性の条件を外し、代わりに2つの接続 $\nabla, \nabla^{*}$ が以下の条件を満たすとする。

$\displaystyle{ {\bf X} g({\bf Y}, {\bf Z}) = g(\nabla_{{\bf X}}{\bf Y}, {\bf Z}) + g({\bf Y}, \nabla^{*}_{{\bf X}}{\bf Z}) }$

このような接続を双対接続と呼ぶ。

Levi-Civita接続の時と同様に ${\bf X} = \partial_i, {\bf Y} = \partial_j, {\bf Z} = \partial_k$ を代入すると以下のようになる。

$\displaystyle{ \partial_i g_{jk} = \Gamma_{ijk} + \Gamma_{ikj}^{*} }$ 　・・・(1)

ただし、接続係数の右肩に*が付いているものは $\nabla^{*}$ の接続係数であることを意味する。

Bregmanダイバージェンスから導かれるRiemann空間の双対平坦性

前回の記事で、Bregmanダイバージェンスから導かれる双対空間について述べた。以下では元の空間の座標を ${\boldsymbol \theta}$ 、双対空間の座標を ${\boldsymbol \eta}$ で表す。

今、双対接続 $\nabla, \nabla^{*}$ として、接続 $\nabla$ の ${\boldsymbol \theta}$ 座標における接続係数が全て大域的に0になるようなものを考える。これはつまり、曲率が0の平坦な接続であることを意味する。この時、接続 $\nabla^{*}$ がどうなるかを考えてみよう。

準備

いくつか式を準備しておこう。ここでは ${\boldsymbol \theta}$ 座標、 ${\boldsymbol \eta}$ 座標で表した接続係数をそれぞれ $\Gamma_{ijk}^{({\boldsymbol \theta})}, \Gamma_{ijk}^{({\boldsymbol \eta})}$ などと表記する。また、Riemann計量についても同様に $g^{({\boldsymbol \theta})}_{ij}, g^{({\boldsymbol \eta})}_{ij}$ のように表記する。

片方の接続が平坦な場合の双対接続の式

まず(1)式に接続係数0を代入すると以下の式が成立する。

$\displaystyle{ \frac{\partial}{\partial \theta^i} g^{({\boldsymbol \theta})}_{jk} = \Gamma_{ikj}^{* ({\boldsymbol \theta})} }$ 　・・・(2)

ここで、Riemann計量の対称性より $g^{({\boldsymbol \theta})}_{jk} = g^{({\boldsymbol \theta})}_{kj}$ であり、さらに接続の対称性より $\Gamma_{ikj}^{* ({\boldsymbol \theta})} = \Gamma_{kij}^{* ({\boldsymbol \theta})}$ となる。これらを組み合わせると、添字の並び替えに対して $\nabla^{*}$ の接続係数が不変となることが分かる。特に、以下の式はのちほど利用するため明示的に述べておく。

$\displaystyle{ \Gamma_{ikj}^{* ({\boldsymbol \theta})} = \Gamma_{jki}^{* ({\boldsymbol \theta})} }$ 　・・・(3)

Riemann計量の別表現

元の空間に定義された凸関数を $\psi$ 、双対空間に定義された凸関数を $\phi$ とすると、 ${\boldsymbol \theta}$ 座標と ${\boldsymbol \eta}$ 座標の変換は以下の式で表されるのだった。

$\displaystyle{ \begin{eqnarray} \eta_i &=& \frac{\partial \psi}{\partial \theta^i} \\ \theta^i &=& \frac{\partial \phi}{\partial \eta_i} \end{eqnarray} }$

これらの両辺をそれぞれ $\theta^j, \eta_j$ で偏微分すると以下のようになる。

$\displaystyle{ \begin{eqnarray} \frac{\partial \eta_i}{\partial \theta^j} &=& \frac{\partial^2 \psi}{\partial \theta^i \partial \theta^j} \\ &=& g_{ij}^{({\boldsymbol \theta})} \end{eqnarray} }$ 　・・・(4)

$\displaystyle{ \begin{eqnarray} \frac{\partial \theta^i}{\partial \eta_j} &=& \frac{\partial^2 \phi}{\partial \eta_i \partial \eta_j} \\ &=& g_{ij}^{({\boldsymbol \eta})} \end{eqnarray} }$ 　・・・(5)

以上により、 ${\boldsymbol \theta}$ 座標、 ${\boldsymbol \eta}$ 座標におけるRiemann計量を凸関数を用いずに表すことが出来た。

接続係数の座標変換

最後に、接続係数の座標変換について述べる。 ${\bf x}$ 座標系から ${\bf x}'$ 座標系への接続係数の変換式は以下のようになる[2]。

$\displaystyle{ \Gamma{'}_{k'm'}^{i'} = \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^i} \Gamma_{km}^i + \frac{\partial^2 x^r}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^r} }$

この変換式は有名なので調べればすぐに出てくるが、添字を下げた版の $\Gamma_{ijk}$ の座標変換式に関してはほとんど情報がない。幸いEMANさんのサイト[3]がヒントになったので、それを参考に変換式を導出してみる。

まず、上で示した変換式の両辺に $g'_{i'l'}$ をかけて $i'$ について和を取る。和の記号はEinsteinの規約により省略する。

$\displaystyle{ g'_{i'l'} \Gamma{'}_{k'm'}^{i'} = g'_{i'l'} \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^i} \Gamma_{km}^i + g'_{i'l'} \frac{\partial^2 x^r}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^r} }$

ここで、Riemann計量の座標変換式を利用する。これもEMANの物理学[4]から式を引用する。

$\displaystyle{ g'_{i'j'} = \frac{\partial x^k}{\partial x'^{i'}} \frac{\partial x^l}{\partial x'^{j'}} g_{kl} }$

これを代入し、さらに左辺を添え字を下げた記号に置き換えると以下のようになる。

$\displaystyle{ \begin{eqnarray} \Gamma{'}_{k'm'l'} &=& \frac{\partial x^i}{\partial x{'}^{i'}} \frac{\partial x^l}{\partial x{'}^{l'}} g_{il} \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^i} \Gamma_{km}^i + \frac{\partial x^s}{\partial x{'}^{i'}} \frac{\partial x^t}{\partial x{'}^{l'}} g_{st} \frac{\partial^2 x^r}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x{'}^{i'}}{\partial x^r} \\ &=& \frac{\partial x^k}{\partial x{'}^{k'}} \frac{\partial x^m}{\partial x{'}^{m'}} \frac{\partial x^l}{\partial x{'}^{l'}} \Gamma_{kml} + g_{st} \frac{\partial^2 x^s}{\partial x{'}^{k'} \partial x{'}^{m'}} \frac{\partial x^t}{\partial x{'}^{l'}} \end{eqnarray} }$ 　・・・(6)

双対平坦性の導出

準備が整ったので本題に入る。少々天下り的だが、 $\Gamma_{ikj}^{* ({\boldsymbol \eta})}$ を $\Gamma_{ikj}^{* ({\boldsymbol \theta})}$ に変換する式を考えてみる。

$\displaystyle{ \begin{eqnarray} \Gamma_{ikj}^{* ({\boldsymbol \theta})} &=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} + g_{st}^{({\boldsymbol \eta})} \frac{\partial^2 \eta^s}{\partial \theta_i \partial \theta_k} \frac{\partial \eta^t}{\partial \theta_j} \\ &=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} + \frac{\partial \theta_s}{\partial \eta^t} \frac{\partial^2 \eta^s}{\partial \theta_i \partial \theta_k} \frac{\partial \eta^t}{\partial \theta_j} \\ &=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} + \frac{\partial^2 \eta^s}{\partial \theta_i \partial \theta_k} \frac{\partial \theta_s}{\partial \theta_j} \\ &=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} + \frac{\partial^2 \eta^j}{\partial \theta_i \partial \theta_k} \\ &=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} + \Gamma_{jki}^{* ({\boldsymbol \theta})} \\ &=& \frac{\partial \eta^{i'}}{\partial \theta_i} \frac{\partial \eta^{k'}}{\partial \theta_k} \frac{\partial \eta^{j'}}{\partial \theta_j} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} + \Gamma_{ikj}^{* ({\boldsymbol \theta})} \end{eqnarray} }$

1つ目の等号は式(6)から、2つ目の等号は式(5)から、3つ目の等号は偏微分の連鎖律から、5つ目の等号は式(2)(4)から、6つ目の等号は式(3)からそれぞれ得られる。

右辺第2項と左辺が一致するため、任意の点において右辺第1項は0でなければならない。右辺第1項に式(4)を適用すると以下のようになる。

$\displaystyle{ \begin{eqnarray} \Gamma_{ikj}^{* ({\boldsymbol \theta})} &=& g_{i'i}^{({\boldsymbol \theta})} g_{k'k}^{({\boldsymbol \theta})} g_{j'j}^{({\boldsymbol \theta})} \Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} + \Gamma_{ikj}^{* ({\boldsymbol \theta})} \end{eqnarray} }$

今考えている状況においてRiemann計量はgivenであるため、右辺第1項が0になるためには $\Gamma_{i'k'j'}^{* ({\boldsymbol \eta})} = 0$ になる他ない。つまり、双対座標系において接続 $\nabla^{*}$ は平坦となるのである。

以上の議論をまとめてみる。多様体上にBregmanダイバージェンスから定まるRiemann計量が与えられ、更に双対接続 $\nabla, \nabla^{*}$ が与えられたとする。接続 $\nabla$ が ${\boldsymbol \theta}$ 座標系で平坦となるとき、接続 $\nabla^{*}$ は ${\boldsymbol \eta}$ 座標系において平坦となる。このような接続の組が与えられた空間を双対平坦空間と呼ぶ。

蛇足

双対平坦空間の説明として、本稿のように接続係数の座標変換から直接的に平坦性を示す方法を採っている記事が全く見つからなかったため、本稿の計算は完全に私が考えたものである。先人がいないということもあり、正直あまり自信がない。本[1]から結論だけは分かっていたため、やや結論ありきで論理展開してしまっているような気がする。もし不備にお気づきの際はご指摘頂けるとありがたい。