來源:DEEPEXI滴普科技 時間:2022-04-15 14:23:39 作者:
數據處理技術為各行各業的業務解決了海量存儲和分析的需求,但數據量的爆發式增長、數據類型的不斷豐富,對數據處理技術和時效性都提出了更高的要求,這使得通用計算引擎(如Spark、Flink)、交互式分析系統(如ClickHouse)、數據湖框架(如Iceberg)等技術快速發展。
作為專業的開發者社區,DEEPNOVA致力于促進技術交流、開拓技術視野、建立技術生態,并積極擁抱開源社區,針對新一代的數據湖、實時數倉等開源技術深入研究,并實現部分功能的優化。
為了與開發者更好地進行技術探討交流,4月16日 14:00—17:30,DEEPNOVA聯合Iceberg社區共同推出“DEEPNOVA MEETUP Online”。此次活動主題為《基于 Iceberg 打造實時數據湖》,匯聚了DEEPNOVA社區專家團力量,將帶領聽眾了解完整的Iceberg技術發展史及在國產化數據中的應用與實踐,真正做到將優質技術內容回饋社區。
核心內容
1.技術解讀:《Apache Iceberg過去、現狀及未來》
Apache Iceberg和HBase PMC成員 胡爭
Apache Iceberg作為一種開放的標準化數據湖表格式,已經被國內外眾多大廠選擇和應用。近期Apache Iceberg計劃在AWS之上推出商業版的數據湖存儲服務。與此同時,Snowflake、AWS、Cloudera等公司紛紛發布Iceberg數據湖。事實證明,經過幾年的發展,Apache Iceberg取得了飛速的發展和巨大的成功。本次分享內容包括Iceberg開源歷程,以及當下和未來重點發力的技術方向。
2.技術實踐:《網易湖倉管理系統Arctic》
網易數據湖和實時計算團隊負責人 馬進
Arctic 是網易自研的基于Iceberg 的湖倉管理系統。同時,網易通過Flink和Arctic構建了流批一體的數據生產鏈路,實時離線統一的數倉。在 Iceberg 基礎之上,Arctic具有支持主鍵、結構自優化、數據一致性、實時訂閱和實時join等特性。本次分享將主要介紹 Arctic 的核心設計思路。
3.技術實踐:《FastData DLink對Iceberg索引的優化與實踐》
滴普科技存儲引擎部總監 張敢
Z-Order是一種可以將多維數據壓縮到一維的技術,在時空索引以及圖像方面使用較廣,對多字段進行排序,對原始數據重新布局, 減少不必要的I/O,進而提升查詢速度?;贗ceberg社區提出的主鍵去重方案,DEEPNOVA社區又利用 BloomFilter 進行了優化,對 eq-delete 文件進行過濾,減少內存占用,提升小文件合并效率。本次分享將主要解讀FastData在索引技術上的優化能力。
4.技術實踐:《FastData DLink基于Iceberg構建實時數據湖的優化與實踐》
滴普科技數據庫內核開發工程師 簡勇華
Iceberg CDC能力是支持構建實時數倉的核心能力。DEEPNOVA 社區對 Iceberg CDC 功能進行了完整實現,并實現Hive歷史數據快速遷移入湖,對社區PR 生成元數據的方式進行了并行優化,提升數倍的遷移性能。本次分享將圍繞如何構建實時數倉,展示FastData的技術優勢。
聽眾收益
1. 了解Apache Iceberg的架構原理、特性及應用場景
2. 基于Iceberg實現不同功能的技術優化能力及其業務價值
3. 開放的技術交流社區,與資深技術專家共同探討湖倉技術
我們堅信技術的前進一定是無數技術從業者一起努力的結果,也衷心希望DEEPNOVA社區能成為技術愛好者們的學習交流平臺,借助更多人的力量將社區建設得更加完善。我們也將秉持開放、共享的社區精神,通過更多的技術分享、直播活動等方式回饋社區,讓數字技術為世界帶來無限可能。
歡迎掃碼觀看直播,轉發分享直播間邀約榜前三名,還將擁有DEEPNOVA專屬禮盒。
掃描下方二維碼解鎖活動詳情
責任編輯:藺弦弦