【拉斯維加斯訊,2024年12月18日】亞馬遜(Amazon)旗下Amazon Web Services(AWS)在2024年re:Invent全球大會上,宣布雲端可大規模擴展的物件儲存服務Amazon Simple Storage Service(Amazon S3)推出新功能,使Amazon S3成為首個全受管支援Apache Iceberg的雲端物件儲存,進一步提升資料分析速度,並以最簡單的方式儲存和管理任何規模的表格資料。新功能還包括自動生成可查詢的中繼資料,簡化資料探索與理解,助力客戶充分挖掘Amazon S3中的資料價值。 · Amazon S3 Tables是首個內建支援Apache Iceberg表格的雲端物件儲存服務,推出新型儲存貯體,以Iceberg表格的形式優化儲存和表格資料查詢,查詢速度最高可提升3倍,每秒交易處理量(TPS)可提高10倍,並自動化表格維護和分析工作負載。
· Amazon S3 Metadata自動擷取可查詢的物件中繼資料以及使用物件標籤的客製化中繼資料,並將結果儲存於Amazon S3 Tables中,以加速資料湖分析,實現近乎即時的資料探索。 AWS儲存副總裁暨傑出工程師Andy Warfield表示:「Amazon S3作為領先的物件儲存服務,儲存了超過400兆個物件,成為數百萬客戶的選擇。我們致力於不斷創新,以前所未有的規模消除處理資料的複雜性。隨著表格資料快速增長,眾多客戶希望實現跨表格查詢並提升查詢效能,更好地理解和組織大量資料,以便輕鬆找到需要的資訊。Amazon S3 Tables和Amazon S3 Metadata消除了在物件上組織和運作表格以及中繼資料儲存的複雜性,使客戶能夠專注於資料建構。」
Amazon S3 Tables和Amazon S3 Metadata現已與Apache Iceberg表格相容,客戶可以使用AWS分析服務以及開源工具,包括互動式查詢服務Amazon Athena、雲端原生無伺服器BI服務Amazon QuickSight以及Apache Spark輕鬆查詢資料。
Amazon S3 Table:以簡單快速的方式執行Amazon S3中的Apache Iceberg表格分析 如今,許多客戶都以表格來組織用於分析的資料,這些資料通常儲存在Apache Parquet中,這是一種優化資料查詢的檔案格式,而Parquet已成為Amazon S3中增長速度最快的資料類型之一。客戶希望能查詢這些不斷增長的表格資料集,通常會使用開放表格格式(open table formats,OTF), 一種以表格儲存資料的開源標準,有助於更有效地管理、更新和追蹤大量資料的變化。隨著客戶使用Iceberg處理PB級至EB級資料的數十億個檔案,以Iceberg管理Parquet文件已成為最流行的OTF。然而,隨著客戶規模擴大,管理Iceberg變得極具挑戰,往往需要專業團隊來建構和維護系統,進行表格維護、資料壓縮以及存取權限管理。這些外部系統成本高昂且複雜,還需要專業的團隊來維護,佔用了企業許多寶貴資源。 Amazon S3 Tables專為管理資料湖中的Apache Iceberg表格建構。Amazon S3 Tables專門針對分析工作負載進行優化,與通用的Amazon S3儲存貯體相比,提供高達3倍的查詢效能和10倍的每秒交易處理量。Amazon S3 Tables能自動管理表格維護任務,包括為了更好的查詢效能進行壓縮,以及快照管理,即使客戶的資料湖不斷擴大和發展,也能持續優化查詢效能和儲存成本。客戶僅需建立一個表格儲存貯體,即可使用Amazon S3 Tables優化儲存和查詢全受管的Iceberg表格中的資料。借助Amazon S3 Tables,客戶將受益於Iceberg的多項功能,如資料列層級交易處理、透過時間旅行功能查詢快照、模式演進(schema evolution)等。此外,Amazon S3 Tables還提供表格層級的存取控制,讓客戶能精準定義資料存取權限。
Genesys是AI驅動的體驗編排服務的全球領導者,正計畫使用Amazon S3建構資料湖。借助Amazon S3 Tables支援的受管Iceberg,Genesys期望為多元的資料分析需求建構一個實體化檢視層(materialized view layer)。Amazon S3 Tables內建支援Iceberg表格,將大幅簡化複雜的資料工作流程,透過自動執行關鍵維護任務,如表格壓縮、快照管理以及未引用檔案清理等。Genesys希望能從Iceberg相容的分析工具中獲得效能提升和廣泛支援,這些工具可直接從Amazon S3中讀寫Iceberg表格。Amazon S3 Tables將成為Genesys未來資料策略的基石,幫助Genesys提供更快、更彈性、更可靠的資料洞察,以支援AI驅動的客戶和員工體驗解決方案。
Amazon S3中繼資料:更輕鬆、快速地探索和理解Amazon S3中的資料
隨著越來越多客戶將Amazon S3作為中央資料儲存庫,資料量與資料種類以指數成長。作為理解和組織海量資料的方式,中繼資料變得越來越重要,讓客戶能找到所需的確切物件。為了應對這個挑戰,許多客戶不得不建構並維護複雜的中繼資料擷取與儲存系統,來深化他們對資料的認知。然而,這些中繼資料系統不但成本高昂、耗時,而且資源密集,通常需要資料工程師在中繼資料流經處理管道時,手動追蹤和更新中繼資料;同時,還需要資料分析師手動檢查海量的物件儲存,以找到用於分析、人工智慧(AI)、機器學習(ML)資料處理工作流程所需的特定資料。 Amazon S3 Metadata能夠近乎即時地自動生成可查詢的物件中繼資料,進而加速資料探索,並提升資料理解,幫助客戶減輕建構和維護複雜中繼資料系統的負擔。借助Amazon S3 Metadata,客戶可以查詢、探索並使用資料,以支援業務分析、即時推論應用等用途。Amazon S3 Metadata能自動生成物件中繼資料,包括系統定義的詳情,如物件的大小和來源,並可透過新的Amazon S3
Tables進行查詢。隨著物件增加或刪除,Amazon S3 Metadata會即時更新Amazon S3 Tables中的物件中繼資料,確保客戶能檢視最新的資料。客戶還可以使用物件標籤客製化中繼資料,為物件加註特定的業務資訊,如產品SKU、交易ID、內容評分或客戶的詳細資訊。客戶也可以透過簡單的SQL查詢輕鬆搜尋中繼資料,快速尋找和準備資料,以支援業務分析、即時推論應用、基礎模型微調、檢索增強生成(RAG)、整合資料倉儲與分析工作流程,以及執行指定的儲存優化任務。 - 新聞稿有效日期,至2024/12/31為止
聯絡人 :Abby 聯絡電話:0277439148 電子郵件:Abbyyc.tsai@eraogilvy.com
上一篇:AWS資料庫功能全新升級 最快速的分散式SQL資料
下一篇:AWS與Adobe攜手為品牌提供AEP解決方案
|