TDW-Spark 是騰訊公司級數(shù)據(jù)平臺,是騰訊海量數(shù)據(jù)處理平臺中最核心的模塊,支持百 PB 級的數(shù)據(jù)存儲和計算,業(yè)務(wù)涉及公司各個 BG,為騰訊公司提供海量、高效、穩(wěn)定的大數(shù)據(jù)平臺支撐和決策支持,是騰訊公司最大的離線數(shù)據(jù)處理平臺。
Spark 網(wǎng)絡(luò)目前的現(xiàn)狀包括大規(guī)模部署 QP 連接數(shù)不夠用,使用 RDMA DC 解決連接數(shù)過多的問題;Spark 不同應(yīng)用場景需要不同的 EP 個數(shù)、RPC 調(diào)用次數(shù)、Spark UCX 線程數(shù)、Block 大小等,需要聯(lián)合調(diào)配;RDMA 和 TCP 混合部署,需要兼容和故障逃生;以及網(wǎng)絡(luò)帶寬低,需要提升帶寬,降低延時。
Spark 原始的業(yè)務(wù)問題包括:
(相關(guān)資料圖)
通信耗時占比高:Spark Shuffle 時間占 Spark 運行總時間的 30% - 40%,造成 Spark 任務(wù)完成時間長。
業(yè)務(wù)需求:網(wǎng)絡(luò) IO 和磁盤 IO 是 Spark Shuffle 的瓶頸,需要提高通信效 率,提高計算效率。
降本增效:五萬張已經(jīng)部署的 NVIDIA ConnectX-5 網(wǎng)卡需要提高性能利用率,切換到 RDMA,提高業(yè)務(wù)帶寬。
為了應(yīng)對上述問題及挑戰(zhàn),騰訊進(jìn)行了 Spark RDMA 大規(guī)模部署網(wǎng)絡(luò)的工作,主要從兩個方面著手:Spark RDMA 網(wǎng)絡(luò)部署和優(yōu)化,以及 Spark UCX / UCX 性能優(yōu)化。
具體部署調(diào)優(yōu)步驟:
搭建 37 節(jié)點 NVIDIA ConnectX-5 網(wǎng)卡和 26 節(jié)點 NVIDIA ConnectX-6 網(wǎng)卡 Spark 環(huán)境,部署 Spark、Spark UCX、UCX 代碼進(jìn)行長穩(wěn)調(diào)優(yōu)。
基于 GroupByTest 和現(xiàn)網(wǎng) Spark 業(yè)務(wù)流量,在 UCX、Spark UCX、Spark 三個層次調(diào)優(yōu)對比 DC、RC 和 TCP 效果。
優(yōu)化 Spark UCX、UCX 代碼,根據(jù) Spark 業(yè)務(wù)調(diào)優(yōu)網(wǎng)卡和交換機配置。
通過在 NVIDIA ConnectX-5 和 NVIDIA ConnectX-6 Dx bond 引入 DCT,提升 Spark 業(yè)務(wù)帶寬利用率。
RDMA 和 TCP 網(wǎng)絡(luò)共存的情況下,保障長穩(wěn)運行和 RDMA 故障逃生。
RDMA 部署優(yōu)化完成情況:
大規(guī)模:使用 DCT 技術(shù)共享 QP 連接,解決了大規(guī)模 QP 不夠用 的問題。大規(guī)模仿真下 Spark 應(yīng)用 RDMA 網(wǎng)絡(luò)滿足預(yù)期。
Spark 應(yīng)用和網(wǎng)絡(luò)聯(lián)合調(diào)優(yōu):實現(xiàn)了最優(yōu)的網(wǎng)卡和交換機配置,以 及 Spark 任務(wù)配置,降低了 15% - 20% 左右的讀完成時間。
故障逃生:Spark UCX 和 UCX 代碼層面實現(xiàn)了 RDMA 和 TCP 通道備份。確保 RDMA 故障逃生 TCP,保證穩(wěn)定運行。
穩(wěn)定性保證:開發(fā)了驅(qū)動版本檢測、網(wǎng)卡配置和檢測、自動化安裝升級檢測功能。開發(fā)了測試網(wǎng)絡(luò)性能模塊,保證 Spark RDMA 各層帶寬和延時滿足預(yù)期。
1. 參數(shù)調(diào)優(yōu):通過調(diào)整 maxReqsInFlight、numListenerThreads 等 Spark / Spark UCX 參數(shù),提升任務(wù)執(zhí)行效率,獲得最好傳輸速率,發(fā)揮最大系統(tǒng)效能。
2. CPU 利用率優(yōu)化:啟用 sleep / wakeup 特性,替代 busy waiting 模式。讓出 CPU 給 Spark 計算任務(wù),減少了 CPU 浪費,體現(xiàn)了 RDMA 的優(yōu)勢。
3. 網(wǎng)路 IO 優(yōu)化:網(wǎng)路 IO 由阻塞模型改為非阻塞模型,數(shù)據(jù)接收由同步等待改為異步通知。避免了因為網(wǎng)路 IO 等待而 阻塞計算任務(wù)執(zhí)行,提高了每個線程的任務(wù)吞吐量,提升了收發(fā)效率和帶寬。
圖 2:網(wǎng)絡(luò) IO 優(yōu)化
4. 調(diào)度優(yōu)化:worker 的調(diào)度方式改用全局 round-robin (RR) 調(diào)度模式,替代原有的按照 thread id 選擇 worker 的 方式。避免了 thread id 不連續(xù)引起的多個線程選擇同一 worker 的問題。
5. 數(shù)據(jù)競爭優(yōu)化:將 send / receive / progress 方法打包至獨立線程運行,保證每個 worker 資源僅被單個線程 訪問 / 修改,避免了數(shù)據(jù)競爭,提升了線程運行效率。
1. 參數(shù)調(diào)優(yōu):使用 DC 替換 RC 模式,提升傳輸帶寬,減少系統(tǒng) CPU、內(nèi)存資源消耗。開啟 CQE zipping 和 PCI relax ordering 減少 PCI 負(fù)載。調(diào)整 UCX_ZCOPY_THRESH、UCX_RNDV_THRESH 和 UCX_RND_SCHEME,獲得穩(wěn)定高速的傳輸帶寬。
2. 網(wǎng)絡(luò)負(fù)載均衡優(yōu)化:隨機化 UDP 源端口取值,減輕由于固定端口,交換機對 5 元組哈希得到相同出端口而引起的 負(fù)載不均衡問題,優(yōu)化網(wǎng)絡(luò)傳輸帶寬。
經(jīng)過部署調(diào)優(yōu),NVIDIA ConnectX-6 環(huán)境 RDMA 傳輸性能比 TCP 平均有 18% 的提升;NVIDIA ConnectX-5 環(huán)境大部分場景 RDMA 傳輸性能比 TCP 平均有 16% 的提升??紤]到 Spark 任務(wù)有計算和本地 write,所以對 Spark 任務(wù)整體完成時間大概有 8% 的性能提升。
NVIDIA ConnetX-6 環(huán)境 RDMA 性能提升明顯(RDMA read 通信 18% 左右提升,整體完成時間 8% 左右提升),可以大規(guī)?;叶炔渴?Spark 業(yè)務(wù)真實流量。NVIDIA ConnectX-5 環(huán)境大部分場景性能平均提升(RDMA read 通信 16% 左右提升,整體完成時間 6% 左右提升),部分場景 RDMA 性能較差還需要調(diào)測優(yōu)化,可以灰度部署 Spark 業(yè)務(wù),繼續(xù)優(yōu)化還有提升空間。
圖 5:ConnectX-5 網(wǎng)卡 37 臺規(guī)模 RDMA 完成時間比 TCP 低 18% 左右
圖 6:20 臺規(guī)模 Spark 業(yè)務(wù)灰度測試,RDMA read 平均降低 20% 左右
Spark 項目通過遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)解決網(wǎng)絡(luò)傳輸中服務(wù)器數(shù)據(jù)處理延遲問題,為騰訊 Spark 大數(shù)據(jù)平臺業(yè)務(wù)提供高帶寬、低延時的通信。該技術(shù)已在二十多臺騰訊 Spark 大數(shù)據(jù)平臺服務(wù)器完成灰度測試,運行穩(wěn)定且 Spark Shuffle(數(shù)據(jù)讀取速率)時間平均降低 15% - 18% 左右,減少了 Spark 任務(wù)完成時間(大約 8% 左右),節(jié)約了服務(wù)器資源。計劃逐步部署到數(shù)千臺 Spark 服務(wù)器。
關(guān)鍵詞:
新聞發(fā)布平臺 |科極網(wǎng) |環(huán)球周刊網(wǎng) |tp錢包官網(wǎng)下載 |中國創(chuàng)投網(wǎng) |教體產(chǎn)業(yè)網(wǎng) |中國商界網(wǎng) |萬能百科 |薄荷網(wǎng) |資訊_時尚網(wǎng) |連州財經(jīng)網(wǎng) |劇情啦 |5元服裝包郵 |中華網(wǎng)河南 |網(wǎng)購省錢平臺 |海淘返利 |太平洋裝修網(wǎng) |勵普網(wǎng)校 |九十三度白茶網(wǎng) |商標(biāo)注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經(jīng)網(wǎng) |深圳熱線 |財報網(wǎng) |財報網(wǎng) |財報網(wǎng) |咕嚕財經(jīng) |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經(jīng)濟(jì)網(wǎng) |中原網(wǎng)視臺 |財經(jīng)產(chǎn)業(yè)網(wǎng) |全球經(jīng)濟(jì)網(wǎng) |消費導(dǎo)報網(wǎng) |外貿(mào)網(wǎng) |重播網(wǎng) |國際財經(jīng)網(wǎng) |星島中文網(wǎng) |手機測評 |品牌推廣 |名律網(wǎng) |項目大全 |整形資訊 |整形新聞 |美麗網(wǎng) |佳人網(wǎng) |稅法網(wǎng) |法務(wù)網(wǎng) |法律服務(wù) |法律咨詢 |成報網(wǎng) |媒體采購網(wǎng) |聚焦網(wǎng) |參考網(wǎng)
亞洲資本網(wǎng) 版權(quán)所有
Copyright © 2011-2020 亞洲資本網(wǎng) All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com