Rで並列計算 / 関連docなど

Ryan Rosario on Parallel programming in R

Earlier this year data scientist Ryan Rosario gave a talk on parellel computing with R to the Los Angeles R User Group, and he recently made the slides from the talk available online. They're a great resource for anyone looking to make use of multi-processor systems a Hadoop based architechure to speed computations with big data.
...

ここで紹介されている、Rにおける並列処理関連の発表資料だけれど、非常によくまとまっている。
package自体は、見慣れたものが多いのだがなかなか有用かも。

発表資料のPDF版は以下。
(PDF) Parallelization in R, Revisited

計算

いま動かしているシミュレーションでは、library(SNOW)でclusterApply()で計算を分散させる処理をしているのだけれど、どうやらデータのやりとりのメッセージングの部分でかなり時間を食っている様子。
時間があったらちゃんとtuningしたい。

SCore

国家プロジェクトである旧第五世代プロジェクトの後のRWCPにて研究されていた並列計算機環境、SCore。
今でもあるのかなー、、、、?と調べてみたら、PCクラスタコンソーシアムに引き継がれているのね。

PC Cluster Consortium
PCクラスタコンソーシアム(PC Cluster Consortium)は、経済産業省リアルワールドコンピューティングプロジェクトを推進した技術研究組合 新情報処理開発機構が開発したSCoreクラスタシステムソフトウエアおよびOmni OpenMPコンパイラを中核としたPCクラスタシステムソフトウエアの開発、発展、普及を通して、PCクラスタ市場育成に貢献することを目的として、2001年10月4日に発足いたしました。

このSCoreベースのクラスタ型計算機は、スパコンのランキングであるTOP500にもランクインしたことも。
提供されているSCoreがすばらしいのは、クラスタ型計算機に特化して、IPプロトコルのレイヤーから最適化なされたMPIパッケージが提供されていること。
クラスタ計算機で計算ではsmall sizeのパケットが数多く通信されるために、ノード間のレイテンシーによってパフォーマンスが大きく変わる。 そのレイテンシーを押さえるために、計算ノード間のmessaging用のMPIにおいて、TCPではなく独自の実装をしていたり。(TCP/IPのパケットのACKが、非常に大きなlatencyとなっていたはず。)
Linuxクラスタ使う機会あれば使いたいなー。