人工知能してみる

人工知能の中の人が機械学習とか統計とかAI的なことを書き連ねます

バンディットアルゴリズムって何?

なんかバンディットアルゴリズムというものがすごいらしいです。
勉強したことを少し書き溜めてみます。

バンディットアルゴリズムとは?
目の前にスロットが何台かあるとしましょおう。
それぞれのスロットには当たりの確率がそれぞれ設定されています。
もちろん、こっちは当たりの確率が高い台で遊びたいですよね。
でも使えるお金には限りがあります。
そこで、限られた条件の中で最大の利益を得るにはどうしたらいいか?というアルゴリズムが考えられました。
それがバンディットアルゴリズムです。

バンディットアルゴリズムは活用と探求にわけられます。
活用は良いと考えられる台で遊ぶことです。
探求は良い台を探すことです。

どの割合でそれぞれを行うか、これが肝になります。

よく似た手法としてA/Bテストが挙げられます。
A/Bテストはテスト対象をランダムに選び、その結果を利用するものです。
A/Bテストの難点はテスト回数が多くないと良い台を選ぶことができないことです。
無限大の試行回数があれば最も良い結果が得られますが、実際の問題では制約があります。
そのため、試行回数の限界があるため、十分な結果が得られないことがあります。
バンディットアルゴリズムならば少ない試行回数でもA/Bテストよりも効率良く、良い結果を得ることができます。
もちろん、バンディットアルゴリズムにも問題点はありますが。

次回は具体的なバンディットアルゴリズムの手法について見てみます。