欧美亚洲自拍偷拍_日本一区视频在线观看_国产二区在线播放_亚洲男人第一天堂

二維碼
企資網(wǎng)

掃一掃關(guān)注

當前位置: 首頁 » 企資快報 » 服務(wù) » 正文

基于英特爾? 優(yōu)化分析包(OAP)的 Spar

放大字體  縮小字體 發(fā)布日期:2021-08-21 18:12:18    作者:媒體小英    瀏覽次數(shù):52
導(dǎo)讀

Spark SQL 作為 Spark 用來處理結(jié)構(gòu)化數(shù)據(jù)的一個基本模塊,已經(jīng)成為多數(shù)企業(yè)構(gòu)建大數(shù)據(jù)應(yīng)用的重要選擇。但是,在大規(guī)模連接(Join)、聚合(Aggregate)等工作負載下,Spark 性能會面臨穩(wěn)定性和性能方面的挑戰(zhàn)。為了

Spark SQL 作為 Spark 用來處理結(jié)構(gòu)化數(shù)據(jù)的一個基本模塊,已經(jīng)成為多數(shù)企業(yè)構(gòu)建大數(shù)據(jù)應(yīng)用的重要選擇。但是,在大規(guī)模連接(Join)、聚合(Aggregate)等工作負載下,Spark 性能會面臨穩(wěn)定性和性能方面的挑戰(zhàn)。

為了提升 Spark SQL 的性能,用戶可以選擇使用英特爾? 優(yōu)化分析包(Optimized Analytics Package,OAP)以及英特爾? 傲騰? 持久內(nèi)存和新一代英特爾? 至強? 處理器來改善典型 Spark SQL 工作負載的運行效率。

Spark SQL 面臨多場景性能瓶頸

IDC 報告顯示,全球數(shù)據(jù)規(guī)模將從2019年的45 ZB 增長到2025年的175 ZB ,2021年創(chuàng)建、捕獲和消耗的數(shù)據(jù)量估計過 59 ZB。在數(shù)據(jù)快速移動、迅猛增長的趨勢下,企業(yè)需要使用先進的分析技術(shù)來實時處理數(shù)據(jù)以獲得實時的業(yè)務(wù)洞察力。大數(shù)據(jù)分析技術(shù)的新發(fā)展與革命性新硬件的問世,顯著提高了大數(shù)據(jù)分析性能,使得數(shù)據(jù)科學(xué)家、分析師和業(yè)務(wù)用戶能夠獲得更深刻的業(yè)務(wù)洞察。

作為面向大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎,Spark 具有開源、經(jīng)濟、靈活等優(yōu)點,常用來構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。但是,Spark 在特定場景下依然會面臨性能挑戰(zhàn),特別是當處理特大規(guī)模數(shù)據(jù)及交互式查詢時。例如,由于缺少高性能緩存方案,數(shù)據(jù) I/O 很容易成為瓶頸。此外,Spark Shuffle 也常常因為大量的較小隨機磁盤 IO、序列化、網(wǎng)絡(luò)數(shù)據(jù)傳輸成為性能瓶頸,導(dǎo)致作業(yè)延遲大幅增加,進而影響工作負載性能。

新興的硬件技術(shù)可以幫助解決這些挑戰(zhàn)。例如,高級矢量擴展(AVX)功能使 Spark 能夠利用 SIMD 同時處理更多的數(shù)據(jù)來加快執(zhí)行速度,而英特爾? 傲騰? 持久內(nèi)存可以利用其高性能,大容量和低延遲創(chuàng)新的突破性組合來提高 Spark SQL 性能。OAP(優(yōu)化分析包)是英特爾和社區(qū)開發(fā)的一個開源項目,旨在借助先進的英特爾處理器、內(nèi)存和存儲以及網(wǎng)絡(luò)技術(shù),通過數(shù)據(jù)源緩存、SQL 索引、Native SQL 引擎、MLlib 優(yōu)化等創(chuàng)新軟件功能提高 Spark 性能,以解決 Spark 核心和相關(guān)組件面臨的計算和 I/O挑戰(zhàn)。

英特爾 Spark 優(yōu)化分析包(OAP)

英特爾? 優(yōu)化分析包(OAP)是英特爾和社區(qū)開發(fā)的開源項目,旨在提高 Spark 性能。她基于先進的英特爾硬件技術(shù),提供了多種功能來改善 Spark 高速緩存、Shuffle、執(zhí)行和機器學(xué)習(xí)性能。如下圖1顯示了 OAP 架構(gòu),她包括以下組件:OAP 數(shù)據(jù)源高速緩存、Native SQL 引擎、Arrow 數(shù)據(jù)源、OAP MLlib、RDD 高速緩存、RPMem Shuffle 和遠端 Shuffle。

  • SQL 數(shù)據(jù)源高速緩存: 一種優(yōu)化的擴展包,通過在 Spark SQL 數(shù)據(jù)源層使用高速緩存技術(shù)來提升 Spark SQL 性能。
  • Native 執(zhí)行引擎: Spark SQL 的 Native 引擎將 Spark 行數(shù)處理轉(zhuǎn)為列式處理,并借助矢量化 SIMD 以及 Arrow 數(shù)據(jù)格式進行加速。
  • MLlib: Vanilla Spark MLlib 的替代版本,通過oneDAL、oneMKL 和 oneCCL 進行了優(yōu)化。
  • RDD 高速緩存、RPMem Shuffle 等功能:通過借助持久內(nèi)存的大容量、高性能等特點來避免存儲溢出(包括 RDD 高速緩存、溢出、中間數(shù)據(jù)),提高 Spark 性能。
  • 遠端 Shuffle: 支持遠端 Shuffle 和基于持久內(nèi)存的 Shuffle。

    (圖1)

    OAP 數(shù)據(jù)源高速緩存

    數(shù)據(jù)源高速緩存(SQL DataSource Cache)旨在利用用戶定義的索引和智能細粒度內(nèi)存數(shù)據(jù)高速緩存來提高 Spark SQL 性能(如圖2所示),主要目的是解決交互式查詢和批處理作業(yè)的性能問題。

    (圖2)

  • 交互式查詢

    大多數(shù)用戶使用 Spark SQL 作為批處理引擎。但作為一個統(tǒng)一處理引擎,很難與非批處理區(qū)分。交互式查詢需要在幾秒、甚至幾亞秒內(nèi)返回數(shù)據(jù),而非批處理所需的幾分鐘、甚至幾小時。這對于當前的 Spark SQL 數(shù)據(jù)處理來說是一個很大的挑戰(zhàn)。交互式查詢通常處理較大的數(shù)據(jù)集,但在通過特定條件過濾后只返回一小部分數(shù)據(jù)。通過為關(guān)鍵列創(chuàng)建和存儲完整的 B+ 樹索引,并使用智能細粒度內(nèi)存數(shù)據(jù)高速緩存策略,Spark SQL 交互式查詢處理時間可以顯著縮短。

  • 批處理作業(yè)

    對于在數(shù)據(jù)倉儲中使用 Spark SQL 進行業(yè)務(wù)分析的用戶,OAP SQL 數(shù)據(jù)源高速緩存可以通過兩種可配置的高速緩存策略來加速批處理作業(yè):

    ? 自動高速緩存熱數(shù)據(jù)。

    ? 專門高速緩存熱表。

    SQL 索引和數(shù)據(jù)源高速緩存為不同列式存儲格式提供統(tǒng)一的高速緩存表示形式,并設(shè)計了針對 RowGroup 中單列的細粒度高速緩存單元。同時,她為兩種列存儲文件格式 Parquet 和 ORC 設(shè)計了兼容的適配器層,索引和高速緩存都構(gòu)建在統(tǒng)一表示形式和適配器之上。

    OAP 數(shù)據(jù)源高速緩存架構(gòu)設(shè)計

    數(shù)據(jù)源高速緩存可以高速緩存已解壓縮和已解碼的矢量化數(shù)據(jù)以及二進制原始數(shù)據(jù)。一般來說,DRAM 通常在 Spark 集群中用作高速緩存介質(zhì),但在 OAP 數(shù)據(jù)源高速緩存中,英特爾? 傲騰?持久內(nèi)存也可以用作高速緩存介質(zhì),以提供高性能、高成本效益的高速緩存解決方案。如下圖3顯示了英特爾? 傲騰? 持久內(nèi)存用作高速緩存介質(zhì)時的 OAP 數(shù)據(jù)源高速緩存的架構(gòu)設(shè)計。

    (圖3)

    OAP 數(shù)據(jù)源高速緩存提供以下主要功能:

  • 覆蓋內(nèi)置的 Parquet/ORC 文件格式。
  • 在分布式集群中提供本地 cache(需要外部 KV 存儲以支持元數(shù)據(jù)持久性)。
  • NUMA 綁定以提供更高性能(若啟用英特爾? 傲騰? 持久內(nèi)存的 snoopy 模式,則不需要 NUMA 綁定)。
  • 基于 Plasma 的實現(xiàn),從而支持多個 spark 執(zhí)行單元同時訪問緩存。

    OAP RPMem Shuffle

    Spark 旨在為不同的工作負載(如即席查詢、實時流和機器學(xué)習(xí))提供高吞吐量和低延遲的數(shù)據(jù)處理。但是,在某些工作負載(大規(guī)模數(shù)據(jù)連接/聚合)下,由于 Shuffle 需要在本地 Shuffle 磁盤讀取/寫入中間數(shù)據(jù)并將其通過網(wǎng)絡(luò)傳輸,Spark 可能會出現(xiàn)性能瓶頸。英特爾? 傲騰? 持久內(nèi)存是一種創(chuàng)新型內(nèi)存技術(shù),相較于 DRAM,其在同等價位下一般可提供更大的容量,并且支持數(shù)據(jù)的持久性。同時,遠程直接內(nèi)存訪問(RDMA)技術(shù)支持在不同計算機之間進行獨立于操作系統(tǒng)的直接內(nèi)存訪問,從而提供高吞吐量、低延遲的網(wǎng)絡(luò)性能。使用高性能英特爾? 傲騰? 持久內(nèi)存和 RDMA 網(wǎng)絡(luò)可以幫助在一定程度上化解 Shuffle 挑戰(zhàn)。

    OAP RPMem Shuffle 提供了一個名為 RPMem Shuffle 擴展的可插拔模塊,該模塊可通過修改配置文件覆蓋默認的 Spark Shuffle 管理器,無需更改 Spark 代碼即可使用。使用此擴展,Spark shuffle 可以充分利用英特爾? 傲騰? 持久內(nèi)存和 RDMA Shuffle 解決方案,相較于傳統(tǒng)的基于磁盤的 shuffle 方式,可以顯著提高 Shuffle 性能。

    OAP RPMem Shuffle 架構(gòu)設(shè)計

    如前文所述,Spark Shuffle 是一項成本高昂的操作,需要大量的小型隨機磁盤 IO、序列化、網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)炔襟E,因此會大幅增加作業(yè)延遲,并且很容易成為工作負載性能的瓶頸。通常,Spark Shuffle 將從底層存儲加載數(shù)據(jù)并作為 Mapper 的輸入,然后 Mapper 將根據(jù)某種規(guī)則處理數(shù)據(jù),例如根據(jù)特定的 Key 將數(shù)據(jù)分組到不同的分區(qū)中。每個 Mapper 的輸出都會持久化到本地存儲中,即 Shuffle 寫操作。然后 Reducer 會嘗試讀取不同 Mapper 的輸出數(shù)據(jù),即 Shuffle 讀操作,再將讀入的數(shù)據(jù)進行排序等聚合操作,并最終輸出結(jié)果。可以看到,一個經(jīng)典的 Shuffle 操作包括數(shù)據(jù)在磁盤的讀寫和在網(wǎng)絡(luò)的傳輸,而這二者在大數(shù)據(jù)集下都可能成為工作負載的性能瓶頸。

    OAP RPMem Shuffle 旨在解決 Shuffle 瓶頸。如下圖4所示,OAP RPMem Shuffle 可以通過附加庫的形式覆蓋現(xiàn)有的 Spark Shuffle 實現(xiàn)。在底層,她使用英特爾? 傲騰? 持久內(nèi)存作為 Shuffle 介質(zhì),并在用戶空間通過 libpmemobj 對英特爾? 傲騰?持久內(nèi)存進行訪問,作為 PMDK 的重要組件,libpmemobj 在英特爾? 傲騰? 持久內(nèi)存上提供了事務(wù)對象存儲。OAP RPMemShuffle 擴展使用 Java Native Interface 對 libpmemobj 進行封裝,并通過 Spark Shuffle Manager 以插件的方式接入Spark。

    (圖4)

    RDMA 網(wǎng)卡是 RPMem Shuffle 擴展的可選項,她可以增加網(wǎng)絡(luò)帶寬,降低網(wǎng)絡(luò)延遲和通信節(jié)點的 CPU 利用率。HPNL4 作為一款高性能網(wǎng)絡(luò)庫,支持各種網(wǎng)絡(luò)協(xié)議,如 TCP/IP、RoCE、iWRAP、OPA 等,她為 RPMem Shuffle 提供網(wǎng)絡(luò)通信支持。如下圖5顯示了 Vanilla Spark Shuffle 和 OAP RPMem Shuffle 的設(shè)計。

    (圖5)

    在 Vanilla Spark Shuffle 設(shè)計中,需要首先將數(shù)據(jù)序列化到堆外內(nèi)存,然后寫入機械硬盤或固態(tài)盤上的本地文件系統(tǒng),并最終通過 TCP-IP 網(wǎng)絡(luò)傳輸數(shù)據(jù)。這一過程涉及大量上下文切換和文件系統(tǒng)開銷,因此如果不對現(xiàn)在的 Spark shuffle 實現(xiàn)進行更改,就無法充分利用英特爾? 傲騰? 持久內(nèi)存的能力。

    OAP RPMem Shuffle 使用 libpmemobj 庫將數(shù)據(jù)直接寫入英特爾? 傲騰? 持久內(nèi)存,然后通過將 RDMA 內(nèi)存區(qū)域注冊在英特爾? 傲騰? 來傳輸數(shù)據(jù)。此實現(xiàn)方案減少了上下文切換開銷,消除了文件系統(tǒng)開銷,并可充分利用 RDMA 實現(xiàn)零拷貝來進一步降低延遲和 CPU 利用率。

    原文鏈接:http://click.aliyun.com/m/1000290564/

    本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

  •  
    (文/媒體小英)
    免責聲明
    本文僅代表作發(fā)布者:媒體小英個人觀點,本站未對其內(nèi)容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔相應(yīng)責任。涉及到版權(quán)或其他問題,請及時聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
     

    Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號

    粵ICP備16078936號

    微信

    關(guān)注
    微信

    微信二維碼

    WAP二維碼

    客服

    聯(lián)系
    客服

    聯(lián)系客服:

    在線QQ: 303377504

    客服電話: 020-82301567

    E_mail郵箱: weilaitui@qq.com

    微信公眾號: weishitui

    客服001 客服002 客服003

    工作時間:

    周一至周五: 09:00 - 18:00

    反饋

    用戶
    反饋

    欧美亚洲自拍偷拍_日本一区视频在线观看_国产二区在线播放_亚洲男人第一天堂

          国产综合在线看| 欧美日韩在线视频一区二区| 欧美女人交a| 国产精品欧美日韩一区二区| 国一区二区在线观看| 亚洲乱码久久| 欧美一区二区视频在线| 欧美福利视频网站| 国产精品一区亚洲| 亚洲人成网站在线播| 亚洲欧美偷拍卡通变态| 巨胸喷奶水www久久久免费动漫| 欧美日韩另类一区| 国产一区在线播放| 99在线热播精品免费| 久久精品道一区二区三区| 欧美精品日韩www.p站| 国产日韩精品一区观看| 亚洲精品久久久久| 欧美一区=区| 欧美黄色aaaa| 好看的日韩视频| 亚洲欧洲偷拍精品| 女仆av观看一区| 国产精品女人久久久久久| 亚洲国产一区二区三区高清| 小嫩嫩精品导航| 欧美日韩精品在线播放| 国内久久精品视频| 亚洲一区二区三区在线观看视频| 久久野战av| 国产精品网站一区| 亚洲免费观看高清完整版在线观看熊 | 在线一区二区日韩| 久久久人成影片一区二区三区观看| 欧美特黄一级| 亚洲精品欧美专区| 猫咪成人在线观看| 国产午夜精品在线| 亚洲一区美女视频在线观看免费| 欧美va亚洲va国产综合| 国产亚洲综合精品| 亚洲伊人网站| 欧美日韩黄色大片| 亚洲精品1区2区| 久久婷婷久久| 国产亚洲欧洲997久久综合| 亚洲午夜久久久| 欧美日本国产视频| 亚洲人成网在线播放| 免费日韩av| 在线观看日韩www视频免费 | 黄色亚洲精品| 欧美资源在线观看| 国产欧美精品日韩精品| 亚洲一区二区久久| 国产精品成人一区二区网站软件| 日韩视频在线一区二区| 欧美国产日韩一二三区| 有坂深雪在线一区| 快播亚洲色图| **欧美日韩vr在线| 狼狼综合久久久久综合网| 国产一区二区三区黄视频| 午夜性色一区二区三区免费视频| 国产精品美女www爽爽爽| 亚洲一本视频| 国产精品中文在线| 午夜精品一区二区三区在线视| 国产精品欧美久久| 亚洲欧美在线aaa| 国产精品影视天天线| 欧美一区二区三区男人的天堂| 国产精品一区二区三区四区| 亚洲欧美经典视频| 国产欧美一区二区三区沐欲 | 狠狠久久综合婷婷不卡| 久久国产主播精品| 尤物yw午夜国产精品视频明星 | 99亚洲精品| 国产精品成人一区二区三区夜夜夜| av不卡免费看| 欧美日韩在线另类| 亚洲欧美日韩直播| 国产真实久久| 麻豆精品视频在线观看| 亚洲欧洲另类| 欧美性片在线观看| 欧美一区二区三区免费视| 狠狠色综合网| 欧美激情综合亚洲一二区| 中文亚洲欧美| 国产日韩精品一区| 久久天天躁狠狠躁夜夜爽蜜月| 亚洲高清影视| 欧美日韩综合在线免费观看| 午夜精品免费在线| 在线观看亚洲| 欧美人与禽猛交乱配| 亚洲欧美不卡| 在线播放亚洲一区| 欧美连裤袜在线视频| 午夜精品婷婷| 亚洲丰满在线| 欧美四级在线观看| 久久久久欧美精品| 亚洲麻豆国产自偷在线| 国产毛片精品视频| 蜜桃av噜噜一区二区三区| 亚洲视频在线观看一区| 国产一区二区高清| 欧美日韩国产精品自在自线| 欧美亚洲视频| 亚洲精品免费看| 国产日韩欧美中文| 欧美另类极品videosbest最新版本| 亚洲综合99| 91久久精品www人人做人人爽| 国产精品久久久久久久久借妻| 久久人体大胆视频| 亚洲网在线观看| 1024成人| 国产欧美精品| 欧美日韩免费观看一区二区三区| 久久精品日产第一区二区三区 | 国产欧美日韩伦理| 欧美激情一区二区三区不卡| 久久亚洲综合| 午夜精品久久久99热福利| 亚洲欧洲精品天堂一级| 国产欧美一区二区三区国产幕精品| 欧美黄网免费在线观看| 久久国产精品网站| 亚洲一区二区三区在线| 亚洲欧洲一区二区天堂久久| 国产日韩欧美亚洲| 国产精品国产三级国产专播品爱网| 麻豆精品精华液| 久久国产精品高清| 亚洲欧美国产不卡| 夜夜爽夜夜爽精品视频| 亚洲国产小视频在线观看| 国产曰批免费观看久久久| 国产精品二区二区三区| 欧美激情综合色综合啪啪| 久久久久久午夜| 欧美一区二区三区免费视频| 这里是久久伊人| 亚洲麻豆一区| 91久久国产精品91久久性色| 精品白丝av| 国内精品视频666| 国产精品主播| 国产乱肥老妇国产一区二 | 亚洲欧美另类在线观看| 日韩午夜av电影| 亚洲精品网站在线播放gif| 亚洲成在人线av| 激情视频亚洲| 黄色亚洲精品| 狠狠色伊人亚洲综合网站色| 国产一区二区精品久久| 国产日韩欧美中文| 国产欧美日韩综合| 国产模特精品视频久久久久| 国产精品日本| 国产精品一区二区久久精品| 国产精品国色综合久久| 欧美日韩一二三四五区| 欧美日韩精品是欧美日韩精品| 欧美片在线观看| 欧美日韩不卡合集视频| 欧美日韩久久| 国产精品sm| 国产精品人成在线观看免费| 国产精品欧美一区喷水| 国产精品视频导航| 国产欧美一区二区在线观看| 国产精品永久免费| 国产视频精品va久久久久久| 国产精品一二三视频| 国产精品五月天| 国内欧美视频一区二区| 永久域名在线精品| 亚洲欧洲日韩女同| 99人久久精品视频最新地址| 亚洲午夜成aⅴ人片| 亚洲图片欧美一区| 午夜一级久久| 久久天堂国产精品| 欧美精品啪啪| 国产精品黄色在线观看| 国产日本精品| 亚洲福利视频三区| 日韩午夜视频在线观看| 亚洲视频 欧洲视频| 香蕉成人久久| 免费看的黄色欧美网站| 欧美伦理a级免费电影| 国产精品国产三级欧美二区|