情報幾何学を嗜む ~Bregmanダイバージェンスとその双対~
最近、情報幾何学の勉強をしている。情報幾何学は日本の甘利先生という方が切り開いてきた分野で、主には確率分布のパラメータが成す空間をリーマン多様体と捉えることで、確率分布族に対して幾何学的な解釈を与えるものである。
情報幾何学は情報科学の一分野でありながら、微分幾何学の理解を要する難解なものである。はっきり言って、情報系の人間で可微分多様体やらリーマン計量やら接続やらを理解している人は一握りであろう。私も情報系、それも工学部の出身であるから、甘利先生の本を初めて手に取った修士2年のときは、あまりの難しさに一瞬で心が折れたのを覚えている。
しかし時は流れ、私も今ではわずかばかり数学の心が分かるようになってきた。そこで、いよいよこの難攻不落の要塞に攻めいってみようというわけである。
というわけで、本稿から始まるいくつかの記事の中で、情報幾何学における主要なトピックについて私が理解したところを書き連ねてみようと思う。本稿ではその第一歩として、Bregmanダイバージェンスとその双対ダイバージェンスについて考えてみる。
ダイバージェンス
情報幾何学を語る上でダイバージェンスの存在は外せない。ダイバージェンスの定義を[1]から引用する*1*2。
ただし、は有限次元ベクトルである。
ダイバージェンスは距離の公理を満たしていない。すなわち、一般にはとならない。この醜い非対称性が後に華麗な蝶へと変貌を遂げるのであるが、それは双対ダイバージェンスのところで説明する。
Bregmanダイバージェンス
ダイバージェンスの中でも特に重要なものの1つにBregmanダイバージェンスがある。これは滑らかな狭義凸関数*3を用いて以下のように定義される[1]。
まず、点における接超平面の方程式は以下のようになる。
点において、この接超平面と元の関数の差は以下のようになる。
これを凸関数から導かれるからへのBregmanダイバージェンスと呼ぶ。
Bregmanダイバージェンスがダイバージェンスの定義を満たすことは自明ではないため、本来であれば証明すべきである。実際、ノートで計算して確かめることは出来たのだが、それをブログに書き起こす気力と時間がなくなってしまったため、ここでは割愛する。
参考までに計算の指針だけ述べておく。まず、についてにおける多変数のTaylor展開を計算する。0次の項はである。1次の項も計算すると0になる。2次の項は計算するとのHesse行列に等しくなる。は滑らかな凸関数と仮定しているため、これは正定値対称となる。
Legendre変換による双対空間
Bregmanダイバージェンスを定義するために凸関数が登場した。凸関数といえば皆さん何を思い浮かべるだろうか?いろいろあると思うが、凸関数にまつわる重要な概念としてLegendre変換が挙げられる。Legendre変換を行うことで、凸関数が定義された空間の双対空間、及び双対凸関数を得ることができる。
最終的には多変数の場合を考える必要があるが、まずは1変数の場合から考えてみよう。
1変数凸関数のLegendre変換
1変数の滑らかな凸関数を考える。滑らかな凸関数の導関数は異なるに対して必ず異なる値を取る。逆に適当な実数を与えると、それを導関数の値とするような点が一意に決まる。
すなわち、の定義域を、値域をとすると、は全単射となる。のことを双対空間と呼ぶ。
ここで、に以下のような変換を施すことで双対空間に対して新たな関数を定める事ができる。
これをLegendre変換と呼ぶ。
右辺のを最大にするについて考えてみよう。最大値を与えるにおいては、この式をで微分したものが0となる必要がある。すなわち、以下が成立する。
すなわち、の値がとなるようなにおいては最大となる。これはつまり、の元と一対一に対応するの元を選べば良いということを意味する。
詳細は後述するが、実はも凸関数であり、これを双対凸関数と呼ぶ。そのため、に対して再度Legendre変換を施すことができるが、その結果は元の関数と一致する[2]。つまり、Legendre変換の逆変換はLegendre変換そのものである。これより、双対性というのはあくまで相対的な概念に過ぎないことが分かる。
多変数凸関数のLegendre変換
少々くどいかもしれないが、1変数のときと同じ議論を多変数についても行ってみよう。
2つ以上の変数を持つ滑らかな凸関数を考える。滑らかな凸関数の勾配ベクトルは異なるに対して必ず異なるベクトルとなる。逆に適当な実数値ベクトルを与えると、それを勾配ベクトルとするような点が一意に決まる。
この対応関係により、定義域との勾配ベクトルが取り得る値の間に一対一の対応関係が得られる。が成す空間のことを双対空間と呼ぶ。
すなわち、の定義域を、値域をとすると、は全単射となる。のことを双対空間と呼ぶ。
ここで、に以下のような変換を施すことで双対空間に対して新たな関数を定める事ができる。
これをLegendre変換と呼ぶ。
右辺のを最大にするについて考えてみよう。最大値を与えるにおいては、勾配ベクトルが零ベクトルとなる必要がある。すなわち、以下が成立する。
すなわち、の値がとなるようなにおいては最大となる。これはつまり、の元と一対一に対応するの元を選べば良いということを意味する。
証明は大変そうなので諦めるが、1変数の場合と同じくも凸関数であり、これを双対凸関数と呼ぶ。そのため、に対して再度Legendre変換を施すことができるが、その結果が元の関数と一致するというのも1変数の場合と同様である。
双対ダイバージェンス
双対凸関数は凸関数なので、これを用いると双対空間にもBregmanダイバージェンスを定義できる。
これを双対ダイバージェンスと呼ぶ。
元のダイバージェンスとの関係
双対ダイバージェンスと元のダイバージェンスとの間には重要な関係がある。以下でそれを導いてみよう。
について、双対空間において対応する点がそれぞれであるとする。このとき以下の式が成り立つ。
これらを双対ダイバージェンスの式に代入すると以下のようになる。
これにを代入すると以下のようになる。
結局、以下の式が得られた。
ダイバージェンスの定義を説明した際、ダイバージェンスは対称性を満たさないということを述べた。しかし、上式が示す通りBregmanダイバージェンスについては2つの引数を入れ替えたものは双対ダイバージェンスに一致するのである。元の空間だけでは対称性がないように見えるが、双対空間まで広げて考えるとこのように美しい対称性が現れるというのは非常に面白い。
ナブラを使わない表現方法
Bregmanダイバージェンスの定義式にはナブラ () が含まれており少々複雑である。実はこれはちょっとした式変形で回避できる。
これまでの議論が追えていれば簡単なので、以下に式変形だけ示す。
まとめ
本稿では情報幾何学のトピックのうち、Bregmanダイバージェンスとその双対ダイバージェンスに関する事柄について述べた。ダイバージェンスは対称性を持たないが、BregmanダイバージェンスについてはLegendre変換による双対空間まで考えることで美しい対称構造が得られることを確認した。
本稿ではまだ微分幾何学らしい概念は登場しなかった。つまり、ここで述べたことは情報幾何学の中ではまだまだ序の口ということである。次回以降、少しずつ幾何学的な内容に踏み込んでいきたいと思う。
参考
[1]
別冊数理科学 情報幾何学の新展開 2014年 08月号 [雑誌]
- 出版社/メーカー: サイエンス社
- 発売日: 2014/08/22
- メディア: 雑誌
- この商品を含むブログを見る
*1:甘利先生の本[1]ではダイバージェンスの微分可能性などに触れられないままいきなりTaylor展開しているところがもやもやする。あまり細かい数学的議論に重きを置いた本ではないので、これについては滑らかな関数であり、かつ剰余項は収束すると仮定を置いてしまうしかないのだろう。
*2:ダイバージェンスの引数に点を入れたり点の座標を入れたりと記号がぶれているが、本[1]に合わせた結果なので好意的に解釈して頂けるとありがたい。
*3:本[1]ではBregmanダイバージェンスの定義に用いる凸関数の性質について厳密な条件が記載されていない。議論を簡単にするために、ここでは滑らかな狭義凸関数であるとした。