情報幾何学を嗜む ~ダイバージェンスの不変性~
前回までの記事で確率分布のパラメータが成す空間の双対平坦性や、重要な確率分布族である指数型分布族について説明してきた。本稿では確率分布のパラメータが成す空間の幾何学的な構造について不変性というキーワードからアプローチし、KLダイバージェンスがいかに特別なものであるかについて説明する。
なお、不変性について議論するにあたり、確率分布としては離散・連続のどちらを考えても良いはずである。しかし、残念ながら参考にしている本[1]が離散確率分布のみをターゲットに議論しているため*1、ここでもそうすることにする。
不変性の要請
確率分布族から双対平坦な空間を構成する際、その空間における点を定めるのは確率分布のパラメータであり、ではない。そのため、例えばが全単射により可逆的に変換される場合などでは、確率分布の表現の仕方は変わってもパラメータは変わらないため、この空間の幾何学的構造にも変化がない事が望まれる。
この考え方をもう一歩進めて、十分統計量というものを考える。十分統計量とは何であるかを説明しだすと長くなるので詳細な解説は他サイト[2]に譲るが、ざっくり言えばパラメータを推定するために十分な統計量である。
をの十分統計量とすると、Fisherの因子分解定理[3]により確率分布は以下のように書ける。
この時、以下のように不変性の要請が定められる[1]。
fダイバージェンス
不変性が要請される幾何学的量として、ダイバージェンスは重要なものの1つである。不変なダイバージェンス*2の具体例はいろいろ考えられるが、不変性に加えてさらに分解可能性という性質を要求するとき、それらを満たすダイバージェンスはfダイバージェンスのみである事が知られている。分解可能なダイバージェンス、及びfダイバージェンスの定義を以下に示す[1] (記号の導入のために一部改変して引用する)。
という条件はとなるために必要である。
双対ダイバージェンス
fダイバージェンスには双対ダイバージェンスが存在する。まず、以下のような関数を考える。
これを用いたfダイバージェンスは以下のようになる。
をと書くことにすると、以下の式が成り立つ。
具体例
標準凸関数
fダイバージェンスには以下の2つの性質がある。
- 凸関数に (は定数) という形の1次式を加えたものを用いても値が変わらない。
- 凸関数を定数倍したを用いると値が倍される。
これより、の代わりに以下の凸関数を考えても良い。
はを満たす。このような凸関数を標準凸関数と呼ぶ。
双対平坦空間を導く不変で分解可能なダイバージェンス
ここまでで確率分布の空間や正測度空間に導入される不変なダイバージェンスとしてfダイバージェンスについて説明した。しかし、幾何学的構造が不変性を持っていると望ましいと思う一方で、情報幾何学的な議論を展開する上でやはり双対平坦性は欠かせない。
では、不変性を持ち、かつ双対平坦空間を導くような良いとこ取りなダイバージェンスは存在しないのだろうか?この疑問の答えを与えるのが以下の定理である[1]。
まとめ
本稿では不変で分解可能なダイバージェンスとしてfダイバージェンスを導入し、さらに双対平坦性も兼ね備えるダイバージェンスとしてKLダイバージェンスとダイバージェンスの特徴付けを行った。
正直、本[1]だけでは理解できない部分が多く、書きたかったことの全てを書ききれなかったが、これまでの一連の記事を書き上げる中で情報幾何学に対する一定の理解は得たと思う。
ただし、触れられたのは基礎的な部分だけで、応用面については取り上げることが出来なかった。本[1]をパラパラと読み進めてみると、情報幾何学の手法を用いて解決された実用的な問題もあるようだが、数学的な難易度は更に増しているように見える。今すぐにとはいかないが、そのうち応用についても理解したい。
参考
[1]
別冊数理科学 情報幾何学の新展開 2014年 08月号 [雑誌]
- 出版社/メーカー: サイエンス社
- 発売日: 2014/08/22
- メディア: 雑誌
- この商品を含むブログを見る
[3] 十分統計量 - Wikipedia
*1:ここまでずっと連続確率分布を扱っておきながら、いざ数学的な扱いが面倒になると離散確率分布に逃げる本書のスタンスは好ましいものとは思えない。
*2:この用語はもっと厳密に定義しておくべきであるが、本[1]やネット上の情報を漁っても納得のいく答えが得られなかった。そのため、大変心苦しいが定義を誤魔化したまま議論を進めている。
*3:の場合だけ特別な式が与えられている。本[1]によるとこれはの式の極限になっているとのことだが、明らかにの時に発散する。一体どういうことなのだろう…もし何か理由があってこの定義に妥当性があるのだとしても、全く自明ではないので説明して欲しかった。
*4:本[1]の式は符号が間違っている
*5:「正測度空間」という言葉をググってみても、全然それらしいページがヒットしない。この用語はどれくらいフォーマルなものなのだろうか。
*6:では定義されないが、本[1]でそれに対する言及はない。恐らく、また極限を考えるのだろう。
*7:本[1]からはこのように読み取れたのだが、計算が複雑で、結局自分では確かめることができなかった。どなたか計算を追うことができた方がいれば、ぜひ真偽の程を教えて頂きたい。