資策會高雄將於106年7月22日開辦「Big Data-進階R語言與機器學習」,課程費用由工業局補助40%,教導學員使用R 與RStudio軟體進行大數據分析。我們將快速復習 R 語言的語法與資料分析的基本概念,輔以進階 R 語言中的 Split-Apply-Combine與 MapReduce資料分析策略。
大數據分析已成為資訊科技、商業經營、科學研究相關從業人員所需的技能之一,且R 是最受歡迎( 2016 IEEE Spectrum Rank 5th of Top Programming Languages ) 的程式語言、也是數據分析師使用軟體的第一首選 (KDNuggets 2016 Survey) 。大數據應用與 R 語言相關的課程與書籍也相繼推出。可惜的是,坊間的課程多數只討論基礎 R 語言的單機(Single-node)或單線程(single-threaded)的資料分析方法,很少討論進階 R 語言的大數據技術及應用,以致於無法真正使用 R 語言處理與分析超出單機記憶體能處理的資料量。 藉由龐大的開放原始碼社群支援,R 語言已有許多相關的套件支援多線程(multi-threaded)程式設計、 平行化運算、與高效能(High-Performance)的資料分析。 有鑑於此,資策會高雄特別針對已有 R 語言程式設計經驗的學員規劃進階R課程,『Big Data 資料分析-進階R 語言與機器學習』。課程將帶領學員們從簡單的MapReduce 基礎概念與設計模式(Design Patterns)、平行化 R機器學習與資料分析方法、如何處理GB 以上超過主憶體大小的資料、到討論最新可擴展 (Scalable) R大數據分析套件的使用。也讓學員們未來能使用 R 語言輕鬆完成無論是小型的統計資料分析或是大規模的資料探勘工作。 課程目標 本課程教導學員使用R 與RStudio軟體進行大數據分析。我們將快速復習 R 語言的語法與資料分析的基本概念,輔以進階 R 語言中的 Split-Apply-Combine與 MapReduce資料分析策略。並以此分析策略為基礎,討論 R 語言的機器學習實務應用與如何實作R 語言的特徵工程來設計與選擇最適合的模型。此外,本課程也將介紹實務上如何使用 R 語言處理大數據與探討高效能的 R 程式設計, 內容包括 R 的向量化運算、函數式程式設計、In-Memory & In-Database Computing,與快速可擴展 (Fast & Scalable) 的R 與 H2O大數據分析。