HHKBがBluetooth対応したので、RMSスタイルがマイブーム。

最近、Mac Bookがお気に入り。軽い。そして何より、給電ながらUSBバッテリーを持ち歩けば、外での作業でも安心。 マシンパワーは非力なんだけれど、いつもsshでパワフルな計算機に入って分析したりコード書いたりしているから、要はX端末的な使い方が出来る…

快適な作業環境とか、Happy Hacking Keyboardをエルゴ化したりとか。

最近、おうちでPCとにらめっこをして作業をする機会も増え、快適な作業環境をということで、、 悩みに悩んだあげく、ハーマンミラーのエンベロップデスクとエンボディチェアをついに導入! デスク ハーマンミラーオンラインストア エンボディチェア - オフィ…

Microsoft R Serverとか、Revolution Rとか。

Microsoft R Server ちょっと前のニュースながら。ひっそりとウワサのあったように、Revolution R EnterpriseがMS群に正式登場。 Microsoft、R言語ベースのビッグデータ分析プラットフォームをひそかに公開 - Computerworldニュース:Computerworld http://i…

「頭脳労働」のクラウドソーシング

面倒なデータマイニング作業を時給200円ぐらいでバングラデシュ人に発注してみたch.nicovideo.jp 単純労働の方に話が行きがちだけれども、頭脳労働の方も。 その昔、アメリカ在住の人とsmallなプロジェクトをやったときに、一緒にやっていたアメリカ人の強い…

臨床研究入門 / e-learning

ICR臨床研究入門 ICR臨床研究入門 臨床研究にからむe-learningサイト。 生物統計、疫学の入門なども。

Revolution R Open

Revolution RのOpenSource版 Revolution Analytics社の商用版Rである、Revolution R。 本体は改良したRと、幾つかのLibraryで構成されている。 その、改良したRと、一部のLibraryを、"Revolution R Open"という名称で公開してくれている。Introducing Revolu…

大規模データのマイニング/ "Mining of Massive Datasets"

大規模データのマイニング作者: Anand Rajaraman,Jeffrey David Ullman,岩野和生,浦本直彦出版社/メーカー: 共立出版発売日: 2014/07/25メディア: 単行本この商品を含むブログ (1件) を見る 大規模データのマイニング / Anand Rajaraman Jeffrey David Ullma…

階層Tree構造のRDBでの表現について。

計算済のItem間距離のデータを元に、Itemから近傍Itemを返すことをしたいわけですが。 実務的な制約もありRDB構造で表現できる方法はないかとちょっと検討。 階層型クラスタリングを行い、その近傍を返す仕組みをRDBで表現できないものかと思ってみたり。(こ…

SQLiteのコードリーディングとか。

社内の若手(20代)のエンジニアと話をしていたら、マジメにソフトウェアのお勉強をしたい、とのこと。 色々とオススメしつつ、実装を読んでみると得るもの多いよとかいうお話ついでに、「RDBMSの実装を読んでみたら?」と無責任サジェスチョン(!)。ちょうど探…

分析者としてのプロフェッショナリズムを突き通したら、不遇になったという話。

1行でまとめると、上司の意向に会わない分析結果を出したら、フルボッコされた、というだけの話なのだけれども。むかし、あるカタカナ系の金融機関の、法人営業本部で分析者をしていた頃のお話。 当時の部署も、そもそもラインも、いわゆるリーマンショック…

Happy Hacking Keyboard(HHK)とか、キーボードの配列とか。

HHK MacBook用に、HHK ProのType-Sを購入。初めてのJIS配列。 Jis配列固有のキーを使うショートカットなどを色々と定義しているのもあり、キーがー多い方が幸せ度高いんよね。 (VMで使っているWindowsと合わせたいという指向も。) これで、ファミレスに篭も…

ボードゲームの思考アルゴリズムの入門

社内の技術系Adventカレンダー向けに何か書けと言われ、とりあえずボードゲームの思考ルーチンについて書いてみたり。 せっかくなので、存在を忘れかけていたBlogメンテの意味も込めてこちらで公開。 ボードゲームをプレーする=知能? ボードゲーム、その中で…

ソフトウェアは壊れない。

Siri と Elizaで会話 Siriと、カウンセリングを模した古典的な会話プログラムのElizaを会話させてみたよ、というネタ記事。 大分前なのだけれど、たまたま発見。 Siri Meets Eliza | jordanmechner.com Since I got my iPhone 4S, I’ve been intrigued, fasc…

オススメ本 / 「エキスパートCプログラミング―知られざるCの深層」

SunのOSとCompiler開発チームの作者が書いた、Cプログラミングの本。 Cプログラミングと言いながらも、実際にはUNIX OSのKernelに関してや、アーキテクチャについても触れられている。エキスパートCプログラミング―知られざるCの深層 (Ascii books)作者: ピ…

並列分散プログラミングとか、高速化とか。

MPI関連を探していて発見した、良質な講義ドキュメント。 [配信講義] CMSI計算科学技術特論A — CMSI web MPI、OpenMP関連、及びその組み合わせについての説明。 また高速化チューニングあたりで説明されている話は、計算機アーキテクチャを理解していない…

e-dreams

先日、同僚と話にのぼったDVD。 kozmoというベンチャーの、創業からIPO直前、ネットバブルが崩壊して創業者たちが取締役を解任され、そして翌年に事業停止をするまでのドキュメンタリー。何が面白いって、創業直後からちゃんと本物の映像として残していると…

大規模データの分析のROIとビジネス上の課題

大規模データに対するスポットでの分析が(ビジネスとしては)難しい背景。大規模データを蓄積するためには、インフラや人などへの投資が必要。 ROI観点で考えると、「コスト」が増えた分だけ、より高い「リターン」を出さなければROIは悪化する。 しかし、…

「データサイエンティストは調査法を軽視している?」

データサイエンティストは調査法を軽視している? - Togetter twitterでもreplyしてしまったのだけれども。 言いたい主旨には同意ながらも、用途の違いかな、とも思う。 アドホック的な、何かしらのファインディングを見つけるための分析が目的であれば、そ…

SQLでロジスティック回帰を実装するTips

SQLでロジスティック回帰を実装するTipsを発見。 Deep Data Mining Blog: Logistic Regression Model Implemented in SQL SQLしか変更できない本番環境という背景のため、decode()とnvl()を用いてロジスティック回帰を実装、とのこと。 スコアリングの実装の…

経営工学と「データサイエンティスト」の育成

先日、某学会で経営工学の学生をしていた頃の先生と、10年近くぶりにバッタリと再会をし。 そこでちょくちょくと話をしていて、経営工学こそデータサイエンティスト育成に近いよね、といった話が出てきたので。 経営工学とは 経営工学って、マイナーだったり…

Topic ModelとかLDAとかのメモ書き。

ちょっと野暮用があり、Topic Modelの実験。 説明とか 私のブックマーク: Latent Topic Model (潜在的トピックモデル) 人工知能学会の私のブックマークから。 latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」 LDAについて。 (pdf)Probabilistic t…

データ分析者不足について雑感。

ここ数年、最近は広義の意味でのデータ分析全体が熱く、分析者に対する需要も高くなっているけれども、正直、ここまでの今の状態は一過性なのかな、と。俯瞰してみるならば、企業でのデータ分析活用のためのバリューチェーンのなかで、現在は属人的で高付加…

O'REILLY / "R Graphics Cookbook"

R

R Graphics Cookbookを買ったり。 主にggplot2まわりの説明がされている感じ。 とりあえずさくっと検索して使うといった、ちょっとしたリファレンス用途によい感じ。R Graphics Cookbook作者: Winston Chang出版社/メーカー: Oreilly & Associates Inc発売日…

Rでオセロの木探索とか。

統計処理のための処理系であるRで、あえてオセロ。 ちゃんとコンピュータと対戦できます。 さくっJokeのつもりで書きはじめたのですが、細かいところにこだわりはじめたら意外と長くなってしまいました。 操作画面 マウスで操作できる人間にやさしい作り。 l…

Rでべき乗分布(power-law)分布の乱数生成

お仕事で、べき乗分布(power-law)に従った乱数発生をする必要が生じたので、さくっと。 べき乗分布の乱数 検索したら出てきたのがこれ。 Random Number -- from Wolfram MathWorld べき乗分布に従った乱数は、がの一様乱数、がべき乗係数、のとき、以下とな…

保険業界のBig DataとAnalyticsへの取り組み

保険業界におけるBigData、Analyticsへの取組に関する調査レポート。ちょっとだけ古いのだけれども。Big Data and Analytics in Insurance 保険業界の現状 General hype about Big Data is refocusing insurers on analytics, but relatively few insurers a…

"A Introduction To Data Science"

とある大学が作成してフリーで提供しているDataScience入門とかいう教科書。フリー。 ぱっと見た感じ、深くは踏み込んではいないけれども、広いTopicで簡潔にサンプルコードが提示されているので、入門者にはよさそうです。Free e-book on Data Science with…

「予測ビジネスで儲ける人々」

予測ビジネスで儲ける人びと―すべての予測は予測はずれに終わる作者: ウィリアムシャーデン,William A. Sherden,森孝恵出版社/メーカー: ダイヤモンド社発売日: 1999/05メディア: 単行本購入: 3人 クリック: 8回この商品を含むブログ (4件) を見る昔の本なの…

アメリカ大統領選とか、データ分析とか。

大統領選でニューヨークタイムズのネイト・シルバーの数理モデル予測が全50州で的中―政治専門家はもはや不要? | TechCrunch Japan アメリカの大統領選の予測において、全50州で予測を的中させたというお話。 この話然り、マネーボールにおける話にしても、…

RからC++を呼び出して計算の高速化

RからCのコードを呼び出す方法としては、SharedLibraryを呼び出す方法が標準的なのですが、それ以外の方法について。Rcpp 0.10.0 が1週間ほど前にCRANに登録されたようで、このキッカケでRcpp自体を知ったさっきです。 これを使うと、C++のコードをsourceCpp…