データ分析

Microsoft R Serverとか、Revolution Rとか。

Microsoft R Server ちょっと前のニュースながら。ひっそりとウワサのあったように、Revolution R EnterpriseがMS群に正式登場。 Microsoft、R言語ベースのビッグデータ分析プラットフォームをひそかに公開 - Computerworldニュース:Computerworld http://i…

「頭脳労働」のクラウドソーシング

面倒なデータマイニング作業を時給200円ぐらいでバングラデシュ人に発注してみたch.nicovideo.jp 単純労働の方に話が行きがちだけれども、頭脳労働の方も。 その昔、アメリカ在住の人とsmallなプロジェクトをやったときに、一緒にやっていたアメリカ人の強い…

臨床研究入門 / e-learning

ICR臨床研究入門 ICR臨床研究入門 臨床研究にからむe-learningサイト。 生物統計、疫学の入門なども。

Revolution R Open

Revolution RのOpenSource版 Revolution Analytics社の商用版Rである、Revolution R。 本体は改良したRと、幾つかのLibraryで構成されている。 その、改良したRと、一部のLibraryを、"Revolution R Open"という名称で公開してくれている。Introducing Revolu…

大規模データのマイニング/ "Mining of Massive Datasets"

大規模データのマイニング作者: Anand Rajaraman,Jeffrey David Ullman,岩野和生,浦本直彦出版社/メーカー: 共立出版発売日: 2014/07/25メディア: 単行本この商品を含むブログ (1件) を見る 大規模データのマイニング / Anand Rajaraman Jeffrey David Ullma…

分析者としてのプロフェッショナリズムを突き通したら、不遇になったという話。

1行でまとめると、上司の意向に会わない分析結果を出したら、フルボッコされた、というだけの話なのだけれども。むかし、あるカタカナ系の金融機関の、法人営業本部で分析者をしていた頃のお話。 当時の部署も、そもそもラインも、いわゆるリーマンショック…

大規模データの分析のROIとビジネス上の課題

大規模データに対するスポットでの分析が(ビジネスとしては)難しい背景。大規模データを蓄積するためには、インフラや人などへの投資が必要。 ROI観点で考えると、「コスト」が増えた分だけ、より高い「リターン」を出さなければROIは悪化する。 しかし、…

「データサイエンティストは調査法を軽視している?」

データサイエンティストは調査法を軽視している? - Togetter twitterでもreplyしてしまったのだけれども。 言いたい主旨には同意ながらも、用途の違いかな、とも思う。 アドホック的な、何かしらのファインディングを見つけるための分析が目的であれば、そ…

SQLでロジスティック回帰を実装するTips

SQLでロジスティック回帰を実装するTipsを発見。 Deep Data Mining Blog: Logistic Regression Model Implemented in SQL SQLしか変更できない本番環境という背景のため、decode()とnvl()を用いてロジスティック回帰を実装、とのこと。 スコアリングの実装の…

経営工学と「データサイエンティスト」の育成

先日、某学会で経営工学の学生をしていた頃の先生と、10年近くぶりにバッタリと再会をし。 そこでちょくちょくと話をしていて、経営工学こそデータサイエンティスト育成に近いよね、といった話が出てきたので。 経営工学とは 経営工学って、マイナーだったり…

Topic ModelとかLDAとかのメモ書き。

ちょっと野暮用があり、Topic Modelの実験。 説明とか 私のブックマーク: Latent Topic Model (潜在的トピックモデル) 人工知能学会の私のブックマークから。 latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」 LDAについて。 (pdf)Probabilistic t…

データ分析者不足について雑感。

ここ数年、最近は広義の意味でのデータ分析全体が熱く、分析者に対する需要も高くなっているけれども、正直、ここまでの今の状態は一過性なのかな、と。俯瞰してみるならば、企業でのデータ分析活用のためのバリューチェーンのなかで、現在は属人的で高付加…

Rでべき乗分布(power-law)分布の乱数生成

お仕事で、べき乗分布(power-law)に従った乱数発生をする必要が生じたので、さくっと。 べき乗分布の乱数 検索したら出てきたのがこれ。 Random Number -- from Wolfram MathWorld べき乗分布に従った乱数は、がの一様乱数、がべき乗係数、のとき、以下とな…

保険業界のBig DataとAnalyticsへの取り組み

保険業界におけるBigData、Analyticsへの取組に関する調査レポート。ちょっとだけ古いのだけれども。Big Data and Analytics in Insurance 保険業界の現状 General hype about Big Data is refocusing insurers on analytics, but relatively few insurers a…

"A Introduction To Data Science"

とある大学が作成してフリーで提供しているDataScience入門とかいう教科書。フリー。 ぱっと見た感じ、深くは踏み込んではいないけれども、広いTopicで簡潔にサンプルコードが提示されているので、入門者にはよさそうです。Free e-book on Data Science with…

「予測ビジネスで儲ける人々」

予測ビジネスで儲ける人びと―すべての予測は予測はずれに終わる作者: ウィリアムシャーデン,William A. Sherden,森孝恵出版社/メーカー: ダイヤモンド社発売日: 1999/05メディア: 単行本購入: 3人 クリック: 8回この商品を含むブログ (4件) を見る昔の本なの…

アメリカ大統領選とか、データ分析とか。

大統領選でニューヨークタイムズのネイト・シルバーの数理モデル予測が全50州で的中―政治専門家はもはや不要? | TechCrunch Japan アメリカの大統領選の予測において、全50州で予測を的中させたというお話。 この話然り、マネーボールにおける話にしても、…

RからC++を呼び出して計算の高速化

RからCのコードを呼び出す方法としては、SharedLibraryを呼び出す方法が標準的なのですが、それ以外の方法について。Rcpp 0.10.0 が1週間ほど前にCRANに登録されたようで、このキッカケでRcpp自体を知ったさっきです。 これを使うと、C++のコードをsourceCpp…

EC2でのクラスター構築と並列計算

EC2でいざクラスターを構築して計算をしようとしても、以外と環境の構築面で足を引っ張られがち。 何かしら無いかと探してみたら、StartClusterというtoolkitを発見。 STAR: Cluster - Home StarCluster has been designed to automate and simplify the pro…

GPGPUの入門用のリソース。

GPU(というかCUDA)の使い方に関して Programming Massively Parallel Processors with CUDA - Stanford の無料コンテンツを iTunes で無料ダウンロード nVIDIAの研究所の人のStanfordでの講義の動画。内容は学生向けと言うだけあり、分かりやすい。(英語も…

"Social Network Analysis"のフリーの講義とフリーのテキストブック。

courseraの"Social Network Analysis"のクラス。 無料でこれだけの内容が提供されていて、それをどこでも見ることが出来るのだから、本当に素晴らしい時代なのだと思う。 Social Network Analysis https://www.coursera.org/course/sna Lada Adamic - This c…

Rでbig dataのハンドリングと並列計算

Online resources for handling big data and parallel computing in R | blog.RDataMining.com Compared with many other programming languages, such as C/C++ and Java, R is less efficient and consumes much more memory. Fortunately, there are som…

ビジネス側でのデータ分析についての本

ビジネス側で道具としてデータ分析を使いたい人のための良い本が少ないように感じる。日本語で出ているデータ分析絡みの本を分類すると、理論書やRで機械学習的な本も最近はあるけれど、そこから一歩離れると、Accessでできるデータ分析入門的な本となり、ち…

iris

機械学習、統計周辺の人は大好きなirisデータセット。 原典はFisherと聞いていたけれど、探してみたら論文のPDFが出てきたよ。 Fisher, R. A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Part II, 179–188. Ad…

Rで並列計算 / 関連docなど

Ryan Rosario on Parallel programming in REarlier this year data scientist Ryan Rosario gave a talk on parellel computing with R to the Los Angeles R User Group, and he recently made the slides from the talk available online. They're a grea…

online機械学習とか、不正検知とか。

ネットサーフィンしていて気になったFICOの記事。 Fraud Analytics That Adapt on the Fly - Banking Analytics Blog"robust adaptive modeling"という呼び方をしている考え方はFICOの専売特許ではなく、不正検知に限った話ではなく。 今日日、統計モデル等…

周辺情報から推測をする、というデータ分析の使われ方。

友人から聞いて知ったニュース。 404 - Not Found:テレビ東京 (略) また今回は時差があり、深夜の観戦も多く、常盤薬品工業の眠気覚まし飲料「眠眠打破」は二桁で売り上げが伸びているといいます。 ポイントカード類の購買データの分析で、「観戦前の深夜に…