資策會高雄將於2018年11月10日開辦「Big Data資料處理-Spark實作」。近年來各大企業如Google、Apple、Facebook等,皆已將機器學習應用在日常生活中,舉凡:自動駕駛、人臉辨識、語音辨識、各種預測、投資分析、醫學、工業等應用,機器學習儼然成為現在及未來市場的顯學。機器學習需要仰賴大量資料來完成,然而要處理大資料量就面臨到「Big Data的儲存」和「Big Data的運算」兩大難題。 在2014年的資料排序基準競賽(Sort Benchmark Competition) 中,Databricks公司使用Spark,在207台的叢集中,以23分鐘完成 100 TB 的資料排序,刷新了2013年由Yahoo創下的記錄(在2,100台的叢集中使用MapReduce,花費了72分鐘完成),這項成就也讓Spark一戰成名。Spark是一個讓數據分析更加快速的叢集運算引擎,它使用了「記憶體內運算技術」(In-Memory Computing),能在資料尚未寫入硬碟時即在記憶體內分析運算。Spark並非用來取代Hadoop,而是改進了Hadoop內MapReduce運算引擎,它支援了Hadoop所支援的儲存系統,包括HDFS、S3等。但Spark本身沒有提供儲存的功能,因此在使用上常見利用Spark叢集的運算加上Hadoop HDFS分散的儲存來處理Big Data進行分析,就可算是完美的結合。 有鑑於此,資策會特規劃了「Big Data資料處理-Spark實作」課程,本課程從Spark的手動安裝開始,讓學員建構出Spark的叢集環境,並體驗程式在叢集上運作的過程,及透過圖形介面監看多台叢集的運行。課程中將輔以Hadoop虛擬主機,讓學員實際體驗Spark整合Hadoop HDFS讀、寫的功能,幫助學員往後在使用或學習資料分析相關語言時,能與Spark順利接軌。 課程特色 1.本課程理論與實務並重,除了讓學員了解Spark技術外,並能自行建構及使用Spark叢集。 2.獨家採用已建構好的多台Linux + Hadoop虛擬主機環境,讓學員實作多台主機的Spark叢集架構,在Spark叢集上執行程式並透過圖形介面監看多台叢集的運行。 3.本課程將會學習整合Spark與Hadoop HDFS讀、寫的功能,安裝Ipython Notebook執行在Spark叢集上,在Ipython Notebook互動模式中操作RDD、DataFrame、Spark SQL、Spark MLlib ALS推薦等範例。 4.課程採體驗式教學方式的實作,只要具些許Linux操作基礎,即可經由指令、設定的剪貼從中驗證課程所學。
詳細課程資訊請參閱課程網頁,或電(07)969-9885,羅小姐 san5823@iii.org.tw。 【課程網址】:http://www.iiiedu.org.tw/south/Spark.htm - 新聞稿有效日期,至2018/11/03為止
聯絡人 :羅小姐 聯絡電話:(07)969-9885 分機6637 電子郵件:san5823@iii.org.tw
上一篇:微軟全新 Surface 系列 開創嶄新生產力世代
下一篇:中金在綫香港古中人︰謠言止於智者 比特大陸要赴港上市了
|
■ 我在中國工作的日子(十四)阿里巴巴敢給股票 - 2023/07/02 ■ 我在中國工作的日子(十三)上億會員怎麼管理 - 2023/06/25 ■ 我在中國工作的日子(十二)最好的公司支付寶 - 2023/06/18 ■ 我在中國工作的日子(十一)兩個女人一個男人 - 2023/06/11 ■ 我在中國工作的日子(十)千團大戰影音帶貨 - 2023/06/04 ■ 我在中國工作的日子(九)電視購物轉型電商 - 2023/05/28 ■ 我在中國工作的日子(八)那些從台灣來的人 - 2023/05/21 ■ 我在中國工作的日子(七)嘉丰資本擦身而過 - 2023/05/14 ■ 我在中國工作的日子(六)跟阿福有關的人們 - 2023/05/07
|