e-dreams

先日、同僚と話にのぼったDVD。 kozmoというベンチャーの、創業からIPO直前、ネットバブルが崩壊して創業者たちが取締役を解任され、そして翌年に事業停止をするまでのドキュメンタリー。

何が面白いって、創業直後からちゃんと本物の映像として残しているところ。
創業直後、狭い部屋で「ノートPCと携帯電話があれば、この部屋から世界征服してやるー」と叫んでいるシーンが個人的に大好き。

ドキュメンタリーといいつつも、エンターテイメントとして楽しめます。:)

e‐dreams [DVD]

e‐dreams [DVD]

大規模データの分析のROIとビジネス上の課題

大規模データに対するスポットでの分析が(ビジネスとしては)難しい背景。

大規模データを蓄積するためには、インフラや人などへの投資が必要。
ROI観点で考えると、「コスト」が増えた分だけ、より高い「リターン」を出さなければROIは悪化する。 しかし、データ「量」が増えただけで、それにしたがって「リターン」が増えるわけではない。

投資に見合う成果を出すための方法の一つは、それらを自動的に動かす仕組みを作ることで、労働集約な分析の枠組みから脱すること、だと個人的には思う。

「データサイエンティストは調査法を軽視している?」

twitterでもreplyしてしまったのだけれども。 言いたい主旨には同意ながらも、用途の違いかな、とも思う。 アドホック的な、何かしらのファインディングを見つけるための分析が目的であれば、その通りではあると思う。
また書いてあるように、ちゃんとしたアンケートって簡単ではない。 社会調査に求められる統計って覗いてみるとカナリ深かったり。

仕組みとしての分析や最適化

大規模データを対象として、レコメンデーションなり、何かしらの最適化計算なりと、仕組みとして動くものが必要な場面では、帰納的にパラメータを求める仕組みを担保しなくてはならない、という視線の違い。(演繹的なモデルを構築するよりも、varianceを小さくし続けるできる仕組みが大事。)

ブラックボックスとしての機械学習

…とはいえ、「ブラックボックス」として機械学習のモジュールを使っている人たちほど、統計的な取り扱いを軽視しているなぁと感じることは多いかも。
エンジニアからの入ってきたグループで、とりあえずLibraryを使って、何かやってみよう、みたいなグループ。

Web業界全般に感じる、とりあえず変数をざくっと入れてみよう、みたいな雰囲気も、こういうのも一因かなー、とか感じるわけで。

SQLでロジスティック回帰を実装するTips

SQLでロジスティック回帰を実装するTipsを発見。

SQLしか変更できない本番環境という背景のため、decode()とnvl()を用いてロジスティック回帰を実装、とのこと。

スコアリングの実装の方法

現行プロダクションへのインパクトを抑えて、さくっとモデルを実装するような場面を考えると、実はこういった小手先テクニックも大事だったりする。
(例えばフィージビリのための一時的な実装をコストを費やさずに行う、とか。)

ある程度の規模となるならば、Scoring Engineを導入するとか、スコアリングの結果をDB内の別カラムで持たせて、計算ロジックと疎結合な仕組みを作る方が、後々のことを考えるとシアワセになれるけれども。

Scoring EngineによってはPMML対応のものもあるので、モデルが対応しているようでそれはそれで、楽に作れるかも。

経営工学と「データサイエンティスト」の育成

先日、某学会で経営工学の学生をしていた頃の先生と、10年近くぶりにバッタリと再会をし。
そこでちょくちょくと話をしていて、経営工学こそデータサイエンティスト育成に近いよね、といった話が出てきたので。

経営工学とは

経営工学って、マイナーだったりするので、聞いたこと無い人もいるかもしれませんが。

経営工学 (けいえいこうがく、英語:management engineering) とは、インダストリアルエンジニアリング(industrial engineering、IE)に由来し、企業や工場における生産性の向上を図るために生まれた学問分野である。
フレデリック・テイラーが、作業方法とその管理の客観化、合理化を図ろうとした「科学的管理法」に端を発する。

特定の固有技術の分野ではなく、管理技術と呼ばれる分野。そのため、関連する分野は多岐にわたり、品質管理、生産システム、人間工学、会計、OR(オペレーションズ・リサーチ)、統計、情報工学、システム工学などが対象となる。
特に日本は製造業が強かったという背景もあり、まさに生産現場の改善に特化をした内容から、はたまた経営システムといった名前でのAppliedな情報工学というような側面も。
まさに「手法」の研究をしているけれども、一方で、現場に応用してなんぼみたいな考え方を持った人が多く生息している。

ちょっと昔に流行った小説で、ザ・ゴールという、生産管理を題材としてTOC(制約条件の理論)を紹介した本がありましたが、まさにあの本の中に出てくるような話は、まさにいわゆる経営工学といった内容。

ザ・ゴール ― 企業の究極の目的とは何か

ザ・ゴール ― 企業の究極の目的とは何か

親和性

対象が生産管理が主たるところであったという歴史的な背景を考えると、今日日のデータ分析という雰囲気とは遠く感じられるけれども、実は要素技術的にも、プロセスや目的意識としても、親和性が非常に高い。

またまたwikipediaからの引用であれなのだけれども。

企業の経営資源である、「人」、「もの」、「金」、「情報」を総合したシステムの設計・改善・確立に関する活動であり、そのシステムから得られる結果を明示し、予測し、評価するために、工学的な分析・設計の原理・方法とともに、数学、物理および社会科学の専門知識と経験を利用する。

まさにこののように、マネジメントを意識して、統計学を用いて、計測をして、経営の改善を行うという経営工学の応用たるプロセスは、データが経営の中心となっている企業組織でのデータ分析活動と非常に近いのではないかと思うわけで。


また、このような実際の問題解決を意識したプロセスのみならず、統計やORなどの数理的な手法、また情報工学といった固有技術はまさに今日日の企業内でのデータ分析と直結しているわけで。
品質管理分野での統計(実験計画法や生存時間分析等々)、また社会調査であったり、ORで最適化をする、といったこれら固有技術は、今日日の企業でのデータ分析に求められる技術と非常に近かったりする。

特に、日本の製造業が強かった背景には、日本がリーディングしている品質管理分野があり、その品質管理は統計家によって作られてきたと言っても過言ではないくらい、統計学と結びつきの強い分野であるという背景もあり、経営工学全般において統計学は非常に重視される。

+固有技術としての情報工学

経営工学のカバー範囲が「統計+プロセス+経営マネジメント全般」とすると、プラス固有技術として情報科学/情報工学、また手を動かしての実装スキルがあれば、最近でいうところのデータ分析者として必要となる要素を一通りカバー出来るのではないかと思う。


そんなこんなの理由で、データサイエンスを系統立てて教育する仕組みが日本には無いという話があるけれども、その中でも近いところを挙げるならば、経営工学系(経営システム)あたりではないのかなと思うわけでして。