Thinking out loud

Rでbig dataのハンドリングと並列計算

データ分析

Online resources for handling big data and parallel computing in R | blog.RDataMining.com

Compared with many other programming languages, such as C/C++ and Java, R is less efficient and consumes much more memory. Fortunately, there are some packages that enables parallel computing in R and also packages for processing big data in R without loading all data into RAM. I have collected some links to online documents and slides on handling big data and parallel computing in R, which are listed below.

Rでのbig dataの取り扱い、並列計算をさせる方法に関するリンク集。PEMA(Parallel External Memory Algorithms)関連、MPI, Hadoop関連など。

PEMA

PEMA(Parallel External Memory Algorithm)とは、巨大なデータを取り扱う時に、メモリの代わりに外部のファイルを用いて巨大なデータを取り扱う仕組み。 SASが巨大なデータを取り扱える仕組みも同様のもの。

R環境でのPEMAは、Open Sourceで'ff', 'bigmemory', 商用ではR Enterpriseの'RevoScaleR'。
これら比較として、以下のslideがよくまとまっている。

RのffとbigmemoryとRevoScaleRとを比較してみた

CRAN