技術

大規模データのマイニング/ "Mining of Massive Datasets"

大規模データのマイニング作者: Anand Rajaraman,Jeffrey David Ullman,岩野和生,浦本直彦出版社/メーカー: 共立出版発売日: 2014/07/25メディア: 単行本この商品を含むブログ (1件) を見る 大規模データのマイニング / Anand Rajaraman Jeffrey David Ullma…

階層Tree構造のRDBでの表現について。

計算済のItem間距離のデータを元に、Itemから近傍Itemを返すことをしたいわけですが。 実務的な制約もありRDB構造で表現できる方法はないかとちょっと検討。 階層型クラスタリングを行い、その近傍を返す仕組みをRDBで表現できないものかと思ってみたり。(こ…

SQLiteのコードリーディングとか。

社内の若手(20代)のエンジニアと話をしていたら、マジメにソフトウェアのお勉強をしたい、とのこと。 色々とオススメしつつ、実装を読んでみると得るもの多いよとかいうお話ついでに、「RDBMSの実装を読んでみたら?」と無責任サジェスチョン(!)。ちょうど探…

オススメ本 / 「エキスパートCプログラミング―知られざるCの深層」

SunのOSとCompiler開発チームの作者が書いた、Cプログラミングの本。 Cプログラミングと言いながらも、実際にはUNIX OSのKernelに関してや、アーキテクチャについても触れられている。エキスパートCプログラミング―知られざるCの深層 (Ascii books)作者: ピ…

並列分散プログラミングとか、高速化とか。

MPI関連を探していて発見した、良質な講義ドキュメント。 [配信講義] CMSI計算科学技術特論A — CMSI web MPI、OpenMP関連、及びその組み合わせについての説明。 また高速化チューニングあたりで説明されている話は、計算機アーキテクチャを理解していない…

EC2でのクラスター構築と並列計算

EC2でいざクラスターを構築して計算をしようとしても、以外と環境の構築面で足を引っ張られがち。 何かしら無いかと探してみたら、StartClusterというtoolkitを発見。 STAR: Cluster - Home StarCluster has been designed to automate and simplify the pro…

GPGPUの入門用のリソース。

GPU(というかCUDA)の使い方に関して Programming Massively Parallel Processors with CUDA - Stanford の無料コンテンツを iTunes で無料ダウンロード nVIDIAの研究所の人のStanfordでの講義の動画。内容は学生向けと言うだけあり、分かりやすい。(英語も…

GPUでレコメンデーションの計算の高速化

実際のところ、リアルタイムでレコメンデーションを走らせるためには、速い計算機が必要である。 計算量を食わない簡略化したロジックを動かすとか、計算機をクラスタ化して環境を構築する、などのアプローチもあるが、GPUを使って計算を高速化するというア…