雲上彈性RDMA能力來了!騰訊雲助力算力加速

雲上彈性RDMA能力來了!騰訊雲助力算力加速
人工智能作為推動數字經濟發展的算力基礎和重要支撐,已經廣泛運用於諸如自然語言處理、圖像識別、自動駕駛、醫療診斷、金融風控等各大應用領域。其中在深度學習分支,模型訓練是一個非常耗時和計算密集的過程,需要大量的計算資源和時間。
隨著算力需求的不斷增長,計算集群規模不斷擴大,模型訓練計算節點之間網絡性能要求也越來越高,其中高吞吐和低時延成為兩個重要的關鍵訴求。
雲上實現節點間高速低延時互聯通常需要高性能專有計算集群,通過專用的交換機,支持集群節點高速低延時的 RDMA(Remote Direct Memory Access)互聯,為大規模集群提供高效的多機加速比。
由於使用了專用的網卡和交換機硬件,RDMA 集群設備往往都需要花費高昂的費用來換取更高性能的網絡通信能力;而騰訊雲最新自研技術彈性 RDMA 網卡 EFI 旨在為客戶提供雲上大規模普惠 RDMA 能力,用戶無需多付額外成本、無需改變業務組網,即可在 VPC 網絡下體驗 RDMA 加速互聯能力。

EFI 是什麼

彈性 RDMA 網卡(Elastic Fabric Interface,EFI)是一種可以綁定到 CVM 實例的虛擬網卡,用戶可在 CVM 實例上添加該設備,即可獲得相較於常規的彈性網卡(Elastic Network Interface,ENI)接口更低延遲和單鏈接更高吞吐的服務,推薦應用於高性能計算、機器學習等領域。

EFI 有什麼優勢特點

  • 低延遲。傳統 RDMA 將數據傳輸到網絡上不需要經過 Kernel 以及無內存拷貝,從而實現低延遲。EFI 具有傳統 RDMA 網卡的優點,超低的延遲讓用戶在雲網絡中體驗到 RDMA 帶來的優越性能。

  • 高吞吐。為達到高帶寬的目的,傳統 RDMA 將可靠傳輸協議和內存地址轉換卸載到 HCA 中,以降低 CPU 和內存帶寬開銷。EFI 採用相似的技術路線實現高吞吐目標。

  • 高可用性。EFI 設備底層採用騰訊自研傳輸協議,其包含高可用設計:在網絡設備故障時,可在數毫秒內感知故障並自動規避,從而降業務層長尾延遲。

  • 規模部署。傳統 RDMA 基於無損網絡,規模部署成本高且困難。EFI 僅依賴有損的以太網絡,基於自研的擁塞控制算法實現類似無損網絡,從而實現規模化部署。

EFI 功能點

EFI 支持絕大部分的 RDMA 功能,支持多種不同的模式以實現高速數據傳輸和處理,主要包括以下幾個功能:
  • Message:Message 是一種基於 RDMA 的點對點通信模式,用於在兩個節點之間進行消息傳遞。在 Message 模式下,發送方將消息寫入本地內存,然後通過 RDMA 操作將消息發送到接收方的內存中。接收方可以通過 RDMA 操作讀取消息,並進行相應的處理。

  • Memory:Memory 是一種基於 RDMA 的內存訪問模式,用於在兩個節點之間進行內存讀取和寫入。在 Memory 模式下,發送方可以直接訪問接收方的內存,從而實現高效的內存讀取和寫入。

  • Event:Event 是一種高效的 RDMA 操作模式,可以在不阻塞 CPU 的情況下進行 RDMA 操作。在 Event 模式下,EFI 可以直接將 RDMA 操作的結果通知給應用程序,而不需要 CPU 的干預。

  • Inline data:Inline data 是一種高效的 RDMA 操作模式,可以將數據直接嵌入到 RDMA 操作中,從而避免了數據傳輸的額外開銷。在 Inline data 模式下,EFI 可以直接將數據寫入到內存中,而不需要通過 DMA(Direct Memory Access)操作進行數據傳輸。

功能 支持情況
RDMA語義 – Message: Send, Send with IMM 
– Memory: Write, Write with IMM, Read, Atomic
QP類型 Reliable Connection(RC)
Event模式 支持
Inline Data模式 支持

EFI 性能表現

由於 EFI 在原組網的基礎上便可實現 RDMA 網絡互聯的能力,因此在同一個 CVM 實例上並不需要有額外的花費支出,但 EFI 的性能表現相比 ENI 卻可以獲得不小的提升。
靜態延遲
靜態延遲即在沒有背景流量情況下,測試報文單向傳輸延遲。靜態延遲性能是衡量網絡型的重要指標之一,直接影響了網絡通信的實時性和響應性,對於需要進行大規模數據傳輸和處理的應用場景尤為重要。在同一 CVM 實例下,基於 EFI 的 RDMA 單向傳輸延遲僅為基於 ENI  Kernel TCP 的三分之一,傳輸時延可降低67%
鏈接吞吐
單鏈接吞吐是指在網絡通信過程中,單個鏈接在單位時間內傳輸的數據量。在單鏈接吞吐場景下,同一實例基於 EFI RDMA 的單QP吞吐相比基於 ENI 的 kernel TCP 可提升70%。

EFI 最佳實踐

EFI 為 CVM 實例帶來了低延遲、高吞吐的網絡通信能力,可適用於大規模分佈式計算和機器學習等領域。EFI 可支持多種集合通信框架,推薦基於以下通信框架進行使用體驗:
  • NCCL(Nvidia Collective Communications Library):NCCL 是一種由 Nvidia 開發的集合通信庫,可以實現多個 GPU 之間的通信和協同計算。EFI 可以與 NCCL 庫配合使用,提供高效的 GPU 集合通信能力,從而加速深度學習和機器學習的訓練速度和效率。
  • TensorFlow-Parameter Server:TensorFlow-Parameter Server 是一種用於分佈式訓練的架構,可以將模型參數存儲在一個或多個參數服務器上,並將訓練任務分配給多個工作節點進行並行計算。在 TensorFlow-Parameter Server 架構中,參數服務器負責存儲和更新模型參數,而工作節點負責計算梯度和更新模型參數。
在多機多卡訓練場景下,EFI 的性能得到了更大程度的發揮和運用,可以進一步提高分佈式訓練的效率和性能。實驗結果顯示 EFI 在多個不同的訓練模型下,都有明顯的性能提升表現。以下為具體的實驗結果表現,在相同實例環境下,搭載使用了 EFI 的實例性能提升了30%-90%不等

如何體驗

騰訊雲最新自研技術 EFI 現已發佈內測,可支持 GPU 型 PNV4ne,適用於小型分佈式 AI 訓練場景。在不增加額外費用的前提下,用戶可以體驗高性能的 RDMA 網絡通信能力。如果您對騰訊雲自研技術 EFI 感興趣,歡迎點擊鏈接進行 EFI 內測申請。騰訊雲致力於為客戶提供雲上大規模普惠 RDMA 能力,助力用戶降低成本,提高效率。
Scroll to Top