首頁 資訊正文

大數據的新風口:數據湖

  數據處理技術為各行各業的業務解決了海量存儲和分析的需求,但數據量的爆發式增長、數據類型的不斷豐富,對數據處理技術和時效性都提出了更高的要求,這使得通用計算引擎(如Spark、Flink)、交互式分析系統(如ClickHouse)、數據湖框架(如Iceberg)等技術快速發展。

  作為專業的開發者社區,DEEPNOVA致力于促進技術交流、開拓技術視野、建立技術生態,并積極擁抱開源社區,針對新一代的數據湖、實時數倉等開源技術深入研究,并實現部分功能的優化。

  為了與開發者更好地進行技術探討交流,4月16日 14:00—17:30,DEEPNOVA聯合Iceberg社區共同推出“DEEPNOVA MEETUP Online”。此次活動主題為《基于 Iceberg 打造實時數據湖》,匯聚了DEEPNOVA社區專家團力量,將帶領聽眾了解完整的Iceberg技術發展史及在國產化數據中的應用與實踐,真正做到將優質技術內容回饋社區。

  核心內容

  1.技術解讀:《Apache Iceberg過去、現狀及未來》

  • 分享嘉賓

  Apache Iceberg和HBase PMC成員 胡爭

  • 內容亮點

  Apache Iceberg作為一種開放的標準化數據湖表格式,已經被國內外眾多大廠選擇和應用。近期Apache Iceberg計劃在AWS之上推出商業版的數據湖存儲服務。與此同時,Snowflake、AWS、Cloudera等公司紛紛發布Iceberg數據湖。事實證明,經過幾年的發展,Apache Iceberg取得了飛速的發展和巨大的成功。本次分享內容包括Iceberg開源歷程,以及當下和未來重點發力的技術方向。

  2.技術實踐:《網易湖倉管理系統Arctic》

  • 分享嘉賓

  網易數據湖和實時計算團隊負責人 馬進

  • 內容亮點

  Arctic 是網易自研的基于Iceberg 的湖倉管理系統。同時,網易通過Flink和Arctic構建了流批一體的數據生產鏈路,實時離線統一的數倉。在 Iceberg 基礎之上,Arctic具有支持主鍵、結構自優化、數據一致性、實時訂閱和實時join等特性。本次分享將主要介紹 Arctic 的核心設計思路。

  3.技術實踐:《FastData DLink對Iceberg索引的優化與實踐》

  • 分享嘉賓

  滴普科技存儲引擎部總監 張敢

  • 內容亮點

  Z-Order是一種可以將多維數據壓縮到一維的技術,在時空索引以及圖像方面使用較廣,對多字段進行排序,對原始數據重新布局, 減少不必要的I/O,進而提升查詢速度?;贗ceberg社區提出的主鍵去重方案,DEEPNOVA社區又利用 BloomFilter 進行了優化,對 eq-delete 文件進行過濾,減少內存占用,提升小文件合并效率。本次分享將主要解讀FastData在索引技術上的優化能力。

  4.技術實踐:《FastData DLink基于Iceberg構建實時數據湖的優化與實踐》

  • 分享嘉賓

  滴普科技數據庫內核開發工程師 簡勇華

  • 內容亮點

  Iceberg CDC能力是支持構建實時數倉的核心能力。DEEPNOVA 社區對 Iceberg CDC 功能進行了完整實現,并實現Hive歷史數據快速遷移入湖,對社區PR 生成元數據的方式進行了并行優化,提升數倍的遷移性能。本次分享將圍繞如何構建實時數倉,展示FastData的技術優勢。

  聽眾收益

  1. 了解Apache Iceberg的架構原理、特性及應用場景

  2. 基于Iceberg實現不同功能的技術優化能力及其業務價值

  3. 開放的技術交流社區,與資深技術專家共同探討湖倉技術

  我們堅信技術的前進一定是無數技術從業者一起努力的結果,也衷心希望DEEPNOVA社區能成為技術愛好者們的學習交流平臺,借助更多人的力量將社區建設得更加完善。我們也將秉持開放、共享的社區精神,通過更多的技術分享、直播活動等方式回饋社區,讓數字技術為世界帶來無限可能。

  歡迎掃碼觀看直播,轉發分享直播間邀約榜前三名,還將擁有DEEPNOVA專屬禮盒。

掃描下方二維碼解鎖活動詳情

責任編輯:藺弦弦

分享:
貴州

貴州大數據產業政策

貴州大數據產業動態

貴州大數據企業

更多
企業
更多
色欲天天天天天综合网