大數據的處理與分析已成為資訊科技、商業經營、科學研究相關從業人員所需的技能。而許多經典的統計或機器學習的方法、範例、甚至於教材都是使用 R 語言來實作與開發,這使得R 語言成為一個專業數據科學家必需掌握的程式語言。而隨著近年來學習R語言的熱門,相關的課程與書籍也相繼推出。可惜的是,坊間的教材多數只討論基礎 R 語言的單機(Single-node)或單線程(Single-threaded)的資料分析方法,很少討論進階 R 語言的平行化 (Parallel)、分散式(Distributed)、與CPU-GPU 異質化(Heterogeneous)等運算,以致於無法真正使用 R 語言處理與分析超出單機記憶體或 CPU核心數能處理的資料量。
藉由龐大的開放原始碼社群支援,R 語言已有許多相關的套件支援多線程(multi-threaded)、平行化、GPU運算、與其它高效能(High-Performance)的資料分析。資策會高雄特別針對已有 R 語言程式設計經驗的學員規劃進階R課程,『Big Data 資料分析-進階R 語言與機器學習』。課程將帶領學員們從簡單的MapReduce 設計模式(Design Patterns)、平行化的機器學習與資料分析方法、如何處理GB 以上或超過主憶體大小的資料、R 語言的深度學習入門、到討論最新可擴展 (Scalable)的 R大數據分析套件使用。也讓學員們未來能使用 R 語言輕鬆完成無論是小型的統計資料分析或是大規模的資料探勘工作。
本課程教導學員使用R 與RStudio軟體進行大數據分析。我們將快速復習 R 語言的語法與資料分析基本概念,輔以 R 語言中的 Split-Apply-Combine與 MapReduce資料分析策略。並以此分析策略為基礎,討論 R 語言的機器學習實務應用與如何實作R 語言的特徵學習與工程來設計與選擇最適合的模型。此外,本課程也將介紹實務上如何使用 R 語言處理大數據與探討高效能的 R 程式設計, 內容包括 R 的向量化運算、函數式程式設計、In-Memory & In-Database Computing,R 深度學習套件、與快速可擴展 (Fast & Scalable) 的R 與 H2O大數據分析.