《數位之牆》資策會「Big Data資料處理-Spark實作」(高雄10/28)

	回到首頁
		個人．家庭．數位化 - 數位之牆

關於本站

1996(2)

產業動態	資策會「Big Data資料處理-Spark實作」(高雄10/28)

資策會高雄

本新聞稿發佈於2017/09/12，由發布之企業承擔內容之立場與責任，與本站無關

資策會高雄將於106年10月28日開辦「Big Data資料處理-Spark實作」。課程目標為學員於學習後能具備獨立完成Spark的安裝、操作與叢集建置的能力，在Spark叢集上安裝、執行Ipython Notebook，整合Spark與Hadoop HDFS讀、寫的功能，練習RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例，並通過課後測驗。

■ 發布／輪播新聞稿

新聞稿直達14萬電子報訂戶刊登新聞稿：按此

資策會高雄將於106年10月28日開辦「Big Data資料處理-Spark實作」。近年來各大企業如Google、Apple、Facebook等，皆已將機器學習應用在日常生活中，舉凡：自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用，機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成，然而要處理大資料量就面臨到「Big Data的儲存」和「Big Data的運算」兩大難題。
在2014年的資料排序基準競賽（Sort Benchmark Competition）中，Databricks公司使用Spark，在207台的叢集中，以23分鐘完成 100 TB 的資料排序，刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce，花費了72分鐘完成)，這項成就也讓Spark一戰成名。

Spark是一個讓數據分析更加快速的叢集運算引擎，它使用了「記憶體內運算技術」（In-Memory Computing)，能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop，而是改進了Hadoop內MapReduce運算引擎，它支援了Hadoop所支援的儲存系統，包括HDFS、S3等。但Spark本身沒有提供儲存的功能，因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析，就可算是完美的結合。

有鑑於此，資策會特規劃了「Big Data資料處理-Spark實作」課程，本課程從Spark的手動安裝開始，讓學員建構出Spark的叢集環境，並體驗程式在叢集上運作的過程，及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機，讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能，幫助學員往後在使用或學習資料分析相關語言時，能與Spark順利接軌。

課程特色
1.本課程理論與實務並重，除了讓學員了解Spark技術外，並能自行建構及使用Spark叢集。
2.獨家採用已建構好的多台Linux + Hadoop虛擬主機環境，讓學員實作多台主機的Spark叢集架構，在Spark叢集上執行程式並透過圖形介面監看多台叢集的運行。
3.本課程將會學習整合Spark與Hadoop HDFS讀、寫的功能，安裝Ipython Notebook執行在Spark叢集上，在Ipython Notebook互動模式中操作RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例。
4.課程採體驗式教學方式的實作，只要具些許Linux操作基礎，即可經由指令、設定的剪貼從中驗證課程所學。

詳細課程資訊請參閱課程網頁，或電(07)969-9885，羅小姐 san5823@iii.org.tw。
【課程網址】：http://www.iiiedu.org.tw/south/Spark.htm

- 新聞稿有效日期，至2017/10/11為止

聯絡人　：羅小姐
聯絡電話：(07)969-9885 分機6637
電子郵件：san5823@iii.org.tw

上一篇：紅帽發布新Ansible產品，推動企業與網路自動化
 下一篇：Adobe Sensei透過設計與人工智慧變革品牌郵件

搜尋本站