情報幾何学を嗜む ~ダイバージェンスの不変性~

前回までの記事で確率分布のパラメータが成す空間の双対平坦性や、重要な確率分布族である指数型分布族について説明してきた。本稿では確率分布のパラメータが成す空間の幾何学的な構造について不変性というキーワードからアプローチし、KLダイバージェンスがいかに特別なものであるかについて説明する。

なお、不変性について議論するにあたり、確率分布としては離散・連続のどちらを考えても良いはずである。しかし、残念ながら参考にしている本[1]が離散確率分布のみをターゲットに議論しているため*1、ここでもそうすることにする。

不変性の要請

確率分布族から双対平坦な空間を構成する際、その空間における点 p({\bf x}, {\boldsymbol \theta})を定めるのは確率分布のパラメータ {\boldsymbol \theta}であり、 {\bf x}ではない。そのため、例えば {\bf x}全単射により可逆的に変換される場合などでは、確率分布の表現の仕方は変わってもパラメータは変わらないため、この空間の幾何学的構造にも変化がない事が望まれる。

この考え方をもう一歩進めて、十分統計量というものを考える。十分統計量とは何であるかを説明しだすと長くなるので詳細な解説は他サイト[2]に譲るが、ざっくり言えばパラメータを推定するために十分な統計量である。

 s {\boldsymbol \theta}の十分統計量とすると、Fisherの因子分解定理[3]により確率分布 p({\bf x}, {\boldsymbol \theta})は以下のように書ける。

 \displaystyle{
p({\bf x}, {\boldsymbol \theta}) = \overline{p}(s, {\boldsymbol \theta}) r({\bf x})
}

この時、以下のように不変性の要請が定められる[1]。

不変性の要請
確率分布空間に導入する幾何学的量は, 任意の十分統計量を用いて分布 \overline{p}(s, {\boldsymbol \theta})から導くことができる.

fダイバージェンス

不変性が要請される幾何学的量として、ダイバージェンスは重要なものの1つである。不変なダイバージェンス*2の具体例はいろいろ考えられるが、不変性に加えてさらに分解可能性という性質を要求するとき、それらを満たすダイバージェンスはfダイバージェンスのみである事が知られている。分解可能なダイバージェンス、及びfダイバージェンスの定義を以下に示す[1] (記号の導入のために一部改変して引用する)。

離散確率分布 S_n (n \ge 3)の2つの分布 {\bf p}, {\bf q}ダイバージェンス D[{\bf p}, {\bf q}]を考えよう. これが成分ごとの和の形
 \displaystyle{
D[{\bf p}, {\bf q}] = \sum d(p_i, q_i)
}
に書ける場合, これを分解可能なダイバージェンスと言う.
分解可能で不変なダイバージェンスは,  f(1) = 0を満たす微分可能な凸関数 fを用いて
 \displaystyle{
D_f [{\bf p}, {\bf q} ] = \sum p_i f\left(\frac{q_i}{p_i} \right)
}
と書ける. これをfダイバージェンスと呼ぶ.

 f(1) = 0という条件は D_f [{\bf p}, {\bf p} ] = 0となるために必要である。

双対ダイバージェンス

fダイバージェンスには双対ダイバージェンスが存在する。まず、以下のような関数を考える。

 \displaystyle{
f^* (x) = x f \left(\frac{1}{x} \right)
}

これを用いたfダイバージェンスは以下のようになる。

 \displaystyle{
\begin{eqnarray}
D_{f^*} [{\bf p}, {\bf q} ] &=& p_i \left(\frac{q_i}{p_i} f \left(\frac{p_i}{q_i} \right) \right) \\
&=& q_i f \left(\frac{p_i}{q_i} \right)
\end{eqnarray}
}

 D_{f^*} [{\bf p}, {\bf q} ] D_f^* [{\bf p}, {\bf q} ]と書くことにすると、以下の式が成り立つ。

 \displaystyle{
D_f^* [{\bf p}, {\bf q} ] = D_f [{\bf q}, {\bf p} ]
}

具体例

KLダイバージェンス

 f(x) = -\log{x}とするとfダイバージェンスは以下のようになる。

 \displaystyle{
\begin{eqnarray}
D_f [{\bf p}, {\bf q} ] &=& \sum -p_i \log{\frac{q_i}{p_i}}  \\
&=& \sum p_i \log{\frac{p_i}{q_i}}
\end{eqnarray}
}

これはKLダイバージェンスになっている。

 \alphaダイバージェンス

 \alphaを実パラメータとして f_{\alpha}(x)を以下のように定める。

 \displaystyle{
f_{\alpha}(x) = \begin{cases}
  \frac{4}{1 - \alpha^2} \left(1 - x^{\frac{1+\alpha}{2}} \right) & (\alpha \ne \pm 1) \\
  x \log{x} & (\alpha = 1) \\
  -\log{x} & (\alpha = -1)
\end{cases}
}*3

この時、 f_{\alpha}(x)に関するfダイバージェンスは以下のようになる*4

 \displaystyle{
D_{\alpha} [{\bf p}, {\bf q} ] = \begin{cases}
\frac{4}{1 - \alpha^2} \left(1 - \sum p_i^{\frac{1-\alpha}{2}} q_i^{\frac{1+\alpha}{2}} \right) & (\alpha \ne \pm 1) \\
\sum q_i \log{\frac{q_i}{p_i}} & (\alpha = 1) \\
\sum p_i \log{\frac{p_i}{q_i}} & (\alpha = -1)
\end{cases}
}

 \alphaダイバージェンスはいろいろなダイバージェンスの一般化となっている。例えば、 \alpha = -1とすればこれはKLダイバージェンスになり、 \alpha = 1とすればKLダイバージェンスの双対になる。

標準凸関数

fダイバージェンスには以下の2つの性質がある。

  • 凸関数 f(x) c(x - 1) ( cは定数) という形の1次式を加えたものを用いても値が変わらない。
  • 凸関数 f(x)を定数倍した cf(x)を用いると値が c倍される。

これより、 fの代わりに以下の凸関数を考えても良い。

 \displaystyle{
\overline{f}(x) = \frac{1}{f''(1)}(f(x) - f'(1)(x - 1))
}

 \overline{f}(x) f(1) = 0, f'(1) = 0, f''(1) = 1を満たす。このような凸関数 \overline{f}(x)を標準凸関数と呼ぶ。

標準凸関数の双対

本筋とは外れるが、標準凸関数の双対 \overline{f}^* (x)は標準凸関数になるのだろうか?以下で確かめてみよう。まず、 \overline{f}^* (x)の一階導関数、二階導関数はそれぞれ以下のようになる。

 \displaystyle{
\overline{f}^*{'}(x) = \overline{f} \left(\frac{1}{x} \right) - \frac{1}{x} \overline{f}' \left(\frac{1}{x} \right)
}

 \displaystyle{
\overline{f}^*{'}{'}(x) = \frac{1}{x^3} \overline{f}'' \left(\frac{1}{x} \right)
}

よって f(1), f'(1), f''(1)の値はそれぞれ以下のようになる。

 \displaystyle{
\begin{eqnarray}
\overline{f}^*(1) &=&  \overline{f}(1) \\
&=& 0
\end{eqnarray}
}

 \displaystyle{
\begin{eqnarray}
\overline{f}^*{'}(1) &=&  \overline{f}(1) -  \overline{f}'(1) \\
&=& 0
\end{eqnarray}
}

 \displaystyle{
\begin{eqnarray}
\overline{f}^*{'}{'}(1) &=& \overline{f}''(1) \\
&=& 1
\end{eqnarray}
}

以上により、 \overline{f}^* (x)も標準凸関数であることが分かった。

正測度空間

ここで、後の議論のために必要な正測度空間*5に言及しておく。

正測度空間とは確率分布から制約 \sum p_i = 1を外すことで得られる空間であり、以下のように表すことができる。

 \displaystyle{
M_n = \{{\bf m} = (m_1, \cdots , m_n) , m_i > 0 \}
}

正測度空間にも確率分布の空間と同様にfダイバージェンスを定義できる。すなわち、 fを標準凸関数とすると、 M_nの任意の2点 {\bf x}, {\bf y}についてf ダイバージェンスは以下のように定義できる。

 \displaystyle{
D_f[{\bf x}, {\bf y} ]= \sum x_i f \left(\frac{y_i}{x_i} \right)
}

正測度空間の場合、 fは標準凸関数であることが必要らしい。標準凸関数でないとダイバージェンスの定義を満たさなくなるようである。

双対平坦空間を導く不変で分解可能なダイバージェンス

ここまでで確率分布の空間や正測度空間に導入される不変なダイバージェンスとしてfダイバージェンスについて説明した。しかし、幾何学的構造が不変性を持っていると望ましいと思う一方で、情報幾何学的な議論を展開する上でやはり双対平坦性は欠かせない。

では、不変性を持ち、かつ双対平坦空間を導くような良いとこ取りなダイバージェンスは存在しないのだろうか?この疑問の答えを与えるのが以下の定理である[1]。

KLダイバージェンスの特徴付け
双対平坦性を導く不変で分解可能なダイバージェンスはKLダイバージェンス (またはその双対) であり, それ以外にはない.

この事実こそがKLダイバージェンスを唯一無二の特別なダイバージェンス足らしめるのである。

正測度空間の場合

ここで話を正測度空間にまで広げると、他にも双対平坦性を導く不変で分解可能なダイバージェンスが存在する。それを説明するために、以下のような関数を考える。

 \displaystyle{
k_{\alpha}(x) = \begin{cases}
  \frac{2}{1 - \alpha} \left(x^{\frac{1-\alpha}{2}} - 1 \right) & (\alpha \ne 1) \\
  \log{x} & (\alpha = 1) \\
\end{cases}
}

これを用いて {\bf m}の各座標を以下のように変換する。

 \displaystyle{
\theta^i = k_{\alpha}(m_i)
}

これを正測度 m_i \alpha表現と呼ぶ。この時、以下の定理が成立する[1]。

 M_nにおいて,  \alphaダイバージェンス \alpha表現をアファイン座標系とする不変で分解可能なBregmanダイバージェンスであり、これ以外に不変で分解可能なBregmanダイバージェンスはない.

厳密な証明は本[1]に譲るとして、ここではBregmanダイバージェンス \alphaダイバージェンスが両立することの雰囲気だけ説明しておく。まず、関数 U_{\alpha}(x)を以下のように定義する*6

 \displaystyle{
U_{\alpha}(x) = \frac{2}{1+\alpha} k^{-1}_{\alpha}(x)
}

この時、 M_nにおいて凸関数 \Psi_{\alpha}({\boldsymbol \theta})を以下のように定義する。

 \displaystyle{
\Psi_{\alpha}({\boldsymbol \theta}) = \sum U_{\alpha}(\theta^i)
}

これを用いて得られるBregmanダイバージェンス {\boldsymbol \theta}座標から {\bf m}座標に戻すと \alphaダイバージェンスになる*7

再び確率分布の空間の場合

確率分布の空間が正測度空間の部分集合であることに着目すると、KLダイバージェンスの特徴付けについては正測度空間の特別な場合として説明できる。

確率分布の場合は \sum m_i = 1でなければならない。これに m_i = k_{\alpha}^{-1} (\theta^i)を代入すると、 \sum k_{\alpha}^{-1} (\theta^i) = 1となる。 k_{\alpha}^{-1} (\theta^i) \alpha = -1でのみ1次関数になるため、この時に限り確率分布の空間が双対平坦な正測度空間内の超平面になる。これよりKLダイバージェンスだけが不変で分解可能かつ双対平坦空間を導くダイバージェンスとなる。

まとめ

本稿では不変で分解可能なダイバージェンスとしてfダイバージェンスを導入し、さらに双対平坦性も兼ね備えるダイバージェンスとしてKLダイバージェンス \alphaダイバージェンスの特徴付けを行った。

正直、本[1]だけでは理解できない部分が多く、書きたかったことの全てを書ききれなかったが、これまでの一連の記事を書き上げる中で情報幾何学に対する一定の理解は得たと思う。

ただし、触れられたのは基礎的な部分だけで、応用面については取り上げることが出来なかった。本[1]をパラパラと読み進めてみると、情報幾何学の手法を用いて解決された実用的な問題もあるようだが、数学的な難易度は更に増しているように見える。今すぐにとはいかないが、そのうち応用についても理解したい。

*1:ここまでずっと連続確率分布を扱っておきながら、いざ数学的な扱いが面倒になると離散確率分布に逃げる本書のスタンスは好ましいものとは思えない。

*2:この用語はもっと厳密に定義しておくべきであるが、本[1]やネット上の情報を漁っても納得のいく答えが得られなかった。そのため、大変心苦しいが定義を誤魔化したまま議論を進めている。

*3: \alpha = \pm 1の場合だけ特別な式が与えられている。本[1]によるとこれは \alpha \ne \pm 1の式の極限になっているとのことだが、明らかに \alpha \to 1の時に発散する。一体どういうことなのだろう…もし何か理由があってこの定義に妥当性があるのだとしても、全く自明ではないので説明して欲しかった。

*4:本[1]の式は符号が間違っている

*5:「正測度空間」という言葉をググってみても、全然それらしいページがヒットしない。この用語はどれくらいフォーマルなものなのだろうか。

*6: \alpha = -1では定義されないが、本[1]でそれに対する言及はない。恐らく、また極限を考えるのだろう。

*7:本[1]からはこのように読み取れたのだが、計算が複雑で、結局自分では確かめることができなかった。どなたか計算を追うことができた方がいれば、ぜひ真偽の程を教えて頂きたい。