online機械学習とか、不正検知とか。

ネットサーフィンしていて気になったFICOの記事。
Fraud Analytics That Adapt on the Fly - Banking Analytics Blog

"robust adaptive modeling"という呼び方をしている考え方はFICOの専売特許ではなく、不正検知に限った話ではなく。
今日日、統計モデル等をシステム側に組み込んで使うという場面が増えてきており、またモデリング対象のデータの傾向そのものが変わりやすいという状況においては、そのModelを動的にupdateし続けるという使い方は自然な発想なのかも。
(また、蓄積されるデータが重いとそこへのモデリングもまた「重い」のだけれど、一度モデルを作ってしまってそこにonline updateできる仕組みがあればフローのデータのみを取り扱えばよいために計算量も減らせるし、何よりreal timeなモデルへの反映ということが可能となる。)

不正検知も新たな手口が出てきたら対応しなくてはいけないのは当然だけれど、Webマーケティング系のモデルにおいても緩やかにパフォーマンスが効果してくのを防ぎ、またそこに人的リソースをかけないで済ませるためには必要となるもの。

Fraud detection における難しさ

FICOの言うMulti-Layered Self-Calibrating (MLSC) analyticsは特許らしい。(暇になったら調べてみたい。)
不正検知(Fraud detection)の難しいところは、不正パターン検知においては検知するべき学習する対象サンプルが全体から見ると極端に少ないこと。
新たな不正パターンを被害が増える前に迅速に、つまりreal-timeにモデルに反映されるようにするためには、適切な取り扱いが求められる。

正常値をモデリングしそれ以外をoutlierとするという方法もあるが、outlierをモデリングするという方法もあり、ここでは後者のようである。

real-time online learning

レコメンデーションロジックやwebにおけるpersonalizedにおいては、動的な仕組みというものが今後求められるようになってくるのではなかろうか。
現状のモデリングし、deployをし、という方法論では、いつか分析担当者はモデルのメインテナンスに追われてしまうこと。

自動化することで、人間はより付加価値の高い仕事が出来るのだ。