情報幾何学を嗜む～指数型分布族の幾何学～

前回の記事では双対平坦空間について説明した。これまでの記事では具体的な確率分布族は登場せず、ひたすら抽象的な議論が続いたが、いよいよ具体的な確率分布族について考えてみる。本稿では情報幾何学的に重要である指数型分布族に着目し、その幾何学的な構造について述べる。

指数型分布族

定義

指数型分布族とは ${\bf u}$ を確率変数、 ${\boldsymbol \theta}$ をパラメータとして、確率密度関数が以下のように書ける確率分布の族である。

$\displaystyle{ p({\bf u}, {\boldsymbol \theta}) = \exp \left(\sum_i \theta^i k_i({\bf u}) + r({\bf u})- \psi({\boldsymbol \theta}) \right) }$

いきなりだが、ここで (情報幾何学的な議論の本筋とはあまり関係ないが) 重要なポイントがある。それは、確率密度関数は積分してなんぼであり、その積分とは通常はLebesgue積分であるため、確率密度関数は測度と密接な関係にあるということである。確率密度関数と測度の両方が定まって初めて積分により確率を求める事ができる。

今、 $\exp(r({\bf u}))$ に着目すると、これは ${\boldsymbol \theta}$ に依存していないため、確率密度関数から測度に追いやる事ができる。そうして、積分する際には測度として $\exp(r({\bf u}))$ を折り込み済みのものを使用するのである。

このように考えることで、指数型分布族の定義式から $\exp(r({\bf u}))$ を省く事ができる。ここでさらに $x_i = k_i({\bf u})$ と置き、 ${\bf x} = (x_1, x_2, \cdots, x_n)$ とすれば、確率密度関数は以下のように表せる。

$\displaystyle{ p({\bf x}, {\boldsymbol \theta}) = \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) }$

左辺は確率密度関数なので、定義域全域で積分して1にならなければならない。この条件より $\psi({\boldsymbol \theta})$ は以下のようになる。

$\displaystyle{ \begin{eqnarray} \int p({\bf x}, {\boldsymbol \theta}) d{\bf x} &=& \int \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) d{\bf x} \\ 1 &=& \int \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) d{\bf x} \\ \exp(\psi({\boldsymbol \theta})) &=& \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \\ \psi({\boldsymbol \theta}) &=& \log \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \end{eqnarray} }$

念のため述べておくが、上記の計算に登場する積分では測度に $\exp(r({\bf u }))$ が掛かる影響を考慮済みであると暗に仮定している。以降の計算でも同様である。

$\psi({\boldsymbol \theta})$ の凸性

前節で登場した $\psi({\boldsymbol \theta})$ は凸関数である。それを示すためにHesse行列を求めてみよう。

$\displaystyle{ \begin{eqnarray} \frac{\partial^2}{\partial \theta^i \partial \theta^j} \psi({\boldsymbol \theta}) &=& \frac{\partial^2}{\partial \theta^i \partial \theta^j} \log \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \\ &=& \frac{\partial}{\partial \theta^i} \frac{\int x_j \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}}{\int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}} \\ &=& \frac{\int x_i x_j \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} - \int x_i \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \int x_j \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}} {\left \{\int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \right \}^2} \\ &=& \frac{\int x_i x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x} \int p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int x_i p({\bf x}, {\boldsymbol \theta}) d{\bf x} \int x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x}} {\left \{\int p({\bf x}, {\boldsymbol \theta}) d{\bf x} \right \}^2} \\ &=& \int x_i x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int x_i p({\bf x}, {\boldsymbol \theta}) d{\bf x} \int x_j p({\bf x}, {\boldsymbol \theta}) d{\bf x} \\ &=& \mathrm{E} [x_i x_j ] - \mathrm{E} [x_i ] \mathrm{E} [x_j ] \\ &=& \mathrm{Cov}(x_i, x_j) \end{eqnarray} }$ 　・・・(1)

これより、Hesse行列は共分散行列となる。共分散行列は半正定値であるため、 $\psi({\boldsymbol \theta})$ は凸関数である[2][3]。

指数型分布族の双対平坦構造

これまでの議論により指数型分布族には自然と凸関数が備わっていることが分かった。前回、前々回の記事より、凸関数が与えられればBregmanダイバージェンスや双対平坦空間が得られることを見てきた。これらの事実より、指数型分布族にもこれらの情報幾何学的な構造を定めることができる。本章ではそれを見ていこう。

双対空間

まずは双対座標、及び双対凸関数を求めてみよう。それぞれ以下のように計算できる。

$\displaystyle{ \begin{eqnarray} {\boldsymbol \eta} &=& \nabla \psi({\boldsymbol \theta}) \\ &=& \nabla \log \int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x} \\ &=& \frac{\int {\bf x} \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}}{\int \exp({\boldsymbol \theta} \cdot {\bf x}) d{\bf x}} \\ &=& \int {\bf x} \exp({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) d{\bf x} \\ &=& \int {\bf x} p({\bf x}, {\boldsymbol \theta}) d{\bf x} \end{eqnarray} }$

$\displaystyle{ \begin{eqnarray} \phi({\boldsymbol \eta}) &=& \max_{{\boldsymbol \theta}} ({\boldsymbol \theta} \cdot {\boldsymbol \eta} - \psi({\boldsymbol \theta})) \\ &=& {\boldsymbol \theta}({\boldsymbol \eta}) \cdot \int {\bf x} \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) d{\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta})) \\ &=& \int {\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) d{\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta})) \int \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) \\ &=& \int ({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) \exp({\boldsymbol \theta}({\boldsymbol \eta}) \cdot {\bf x} - \psi({\boldsymbol \theta}({\boldsymbol \eta}))) d{\bf x} \\ &=& \int p({\bf x}, {\boldsymbol \theta}({\boldsymbol \eta})) \log p({\bf x}, {\boldsymbol \theta}({\boldsymbol \eta})) d{\bf x} \end{eqnarray} }$

これより、 ${\boldsymbol \eta}$ は $p({\bf x}, {\boldsymbol \theta})$ の期待値、 $\phi({\boldsymbol \eta})$ は $p({\bf x}, {\boldsymbol \theta}({\boldsymbol \eta}))$ のエントロピーの符号を変えたものになっていることが分かる。

Bregmanダイバージェンス

次に $\psi({\boldsymbol \theta})$ から導かれるBregmanダイバージェンスを計算してみる。

$\displaystyle{ \begin{eqnarray} D[{\boldsymbol \theta}' : {\boldsymbol \theta} ] &=& \psi({\boldsymbol \theta}') + \phi({\boldsymbol \eta}) - {\boldsymbol \theta}' \cdot {\boldsymbol \eta} \\ &=& \psi({\boldsymbol \theta}') \int p({\bf x}, {\boldsymbol \theta}) d{\bf x} + \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int {\boldsymbol \theta}' \cdot {\bf x} p({\bf x}, {\boldsymbol \theta}) d{\bf x} \\ &=& \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int ({\boldsymbol \theta}' \cdot {\bf x} - \psi({\boldsymbol \theta}')) p({\bf x}, {\boldsymbol \theta}) d{\bf x} \\ &=& \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}) d{\bf x} - \int p({\bf x}, {\boldsymbol \theta}) \log p({\bf x}, {\boldsymbol \theta}') d{\bf x} \\ &=& \int p({\bf x}, {\boldsymbol \theta}) \log \frac{p({\bf x}, {\boldsymbol \theta})}{p({\bf x}, {\boldsymbol \theta}')} d{\bf x} \end{eqnarray} }$

ただし、 ${\boldsymbol \theta}$ と ${\boldsymbol \eta}$ 、および ${\boldsymbol \theta}'$ と ${\boldsymbol \eta}'$ がそれぞれ互いに双対であるとする。これはKLダイバージェンスに他ならない[4]。

Riemann計量

Riemann計量は以下のように求められるのだった。

$\displaystyle{ g_{ij} = \frac{\partial^2}{\partial \theta^i \partial \theta^j} \psi({\boldsymbol \theta}) }$

右辺は式(1)である程度まで計算したが、それをさらに以下のように変形してみる。

$\displaystyle{ \begin{eqnarray} g_{ij} &=& \mathrm{Cov}(x_i, x_j) \\ &=& \mathrm{E} [(x_i - \mathrm{E} [x_i ])(x_j - \mathrm{E} [x_j ]) ] \\ &=& \mathrm{E} \left [\left(x_i - \frac{\partial}{\partial \theta^i} \psi({\boldsymbol \theta}) \right) \left( x_j - \frac{\partial}{\partial \theta^j} \psi({\boldsymbol \theta}) \right) \right ] \\ &=& \mathrm{E} \left [\frac{\partial}{\partial \theta^i} ({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) \frac{\partial}{\partial \theta^j}({\boldsymbol \theta} \cdot {\bf x} - \psi({\boldsymbol \theta})) \right ] \\ &=& \mathrm{E} \left [\frac{\partial}{\partial \theta^i} \log p({\bf x}, {\boldsymbol \theta}) \frac{\partial}{\partial \theta^j} \log p({\bf x}, {\boldsymbol \theta}) \right ] \end{eqnarray} }$

これはFisher情報行列に他ならない[5]。

例：指数分布

せっかくなので例を見てみよう。指数型分布族に属する確率分布はいろいろあるが、ここでは指数分布をピックアップしてみる。指数分布の確率密度関数は以下の式で表される[6]。

$\displaystyle{ p(x, \lambda)=\left\{{\begin{array}{ll}\lambda e^{-\lambda x}&(x\geq 0)\\0&(x<0)\end{array}}\right. }$

ただし、 $\lambda >0$ である。 $x\geq 0$ の場合の式において $\theta = -\lambda$ と置いて少し変形すると以下のようにできる。

$\displaystyle{ p(x, \theta) = \exp( \theta x - (-\log (-\theta)) ) }$

そのため、指数分布は指数型分布族に含まれる。

双対座標と双対凸関数

双対座標 $\eta$ は以下のようになる。

$\displaystyle{ \begin{eqnarray} \eta &=& \int x p(x, \theta) dx \\ &=& \int_0^{\infty} x (-\theta) e^{\theta x} dx \\ &=& -\theta \left \{\left [x \frac{e^{\theta x}}{\theta} \right ]_0^{\infty} - \int_0^{\infty} \frac{e^{\theta x}}{\theta} dx \right \} \\ &=& \int_0^{\infty} e^{\theta x} dx \\ &=& \left [ \frac{e^{\theta x}}{\theta} \right ]_0^{\infty} \\ &=& -\frac{1}{\theta} \end{eqnarray} }$

双対凸関数 $\phi$ は以下のようになる。

$\displaystyle{ \begin{eqnarray} \phi(\eta) &=& \int p(x, \theta(\eta)) \log p(x, \theta(\eta)) dx \\ &=& \int_0^{\infty} (-\theta) e^{\theta x} \log ((-\theta) e^{\theta x}) dx \\ &=& \int_0^{\infty} (-\theta) e^{\theta x} (\log (-\theta) + \theta x) dx \\ &=& \log (-\theta) \int_0^{\infty} (-\theta) e^{\theta x} dx + \theta \int_0^{\infty} x (-\theta) e^{\theta x} dx \\ &=& \log (-\theta) \left [ -e^{\theta x} \right ]_0^{\infty} - 1 \\ &=& \log (-\theta) - 1 \\ &=& -\log \eta - 1 \end{eqnarray} }$

Bregmanダイバージェンス

Bregmanダイバージェンスは以下のようになる。

$\displaystyle{ \begin{eqnarray} D[\theta' : \theta ] &=& \int p(x, \theta) \log \frac{p(x, \theta)}{p(x, \theta')} dx \\ &=& \int_0^{\infty} (-\theta) e^{\theta x} \log \frac{(-\theta) e^{\theta x}}{(-\theta') e^{\theta' x}} dx \\ &=& (-\theta) \int_0^{\infty} e^{\theta x} (\log (-\theta) + \theta x - \log (-\theta') - \theta' x) dx \\ &=& (-\theta) \left \{ (\log (-\theta) - \log (-\theta')) \int_0^{\infty} e^{\theta x} dx + (\theta - \theta') \int_0^{\infty} x e^{\theta x} dx \right \} \\ &=& (-\theta) \left \{ (\log (-\theta) - \log (-\theta')) \frac{-1}{\theta} + \frac{\theta - \theta'}{\theta^2} \right \} \\ &=& \log (-\theta) - \log (-\theta') - 1 + \frac{\theta'}{\theta} \\ &=& - \log (-\theta') -\log \eta - 1 - \theta' \eta \end{eqnarray} }$

Riemann計量

指数分布はパラメータが1つしかないため、Riemann計量はスカラーとなる。具体的には以下のように計算される。

$\displaystyle{ \begin{eqnarray} g &=& \frac{\partial^2}{\partial \theta^2} \psi(\theta) \\ &=& \frac{\partial^2}{\partial \theta^2} (-\log (-\theta)) \\ &=& \frac{\partial}{\partial \theta} \frac{-1}{\theta} \\ &=& \frac{1}{\theta^2} \end{eqnarray} }$

Riemann計量が分かるとパラメータ空間の中での確率分布同士の距離が分かる。確率分布同士の距離とは、定性的には確率分布の形状が互いにどれくらい異なるかを表すものと考えられる。

今回の例の場合、指数分布の平均は $\frac{-1}{\theta}$ であるため、 $\theta$ の絶対値が大きくなると平均は0に近づいていく。そのような領域では $\theta$ の値が少し違う分布同士でほとんど形状の差がなくなる。これは $\theta$ の絶対値が大きくなるに連れてRiemann計量の値が0に近づいていくことに対応する。

一方、 $\theta$ が0に近いところでは $\theta$ が僅かに変わるだけで平均値が大幅に変動し、分布の形状が大きく変わる。これは $\theta$ が0に漸近するに連れてRiemann計量が急激に大きくなることと関連している。

ただし、本当は分散による影響も加味する必要がある。指数分布の分散は $\frac{1}{\theta^2}$ であるため、 $\theta$ が0に近いところでは分散が大きくなる。分散が大きくなると分布が散らばるため、 $\theta$ が変化しても分布が変動し辛くなる。これは先程の平均の議論と逆のことを言っていることになるが、指数分布の場合は平均の変化の方が分布の形状を決める上で支配的な要因になっているということなのだろう。