NVIDIA 的全新開源 TensorRT-LLM 軟件計劃在未來幾週內發布,該軟件已展現出顯著的性能提升。在使用 GPT-J 6B 模型的測試中,更新後的系統顯示出比 A100 八倍的性能改進,比之前的四倍優勢有了顯著的飛躍。此外,在 Meta 的 Llama2 LLM 上進行評估時,TensorRT-LLM 增強的 H100 比 A100 提高了 4.6 倍,比更新前的 2.6 倍有了顯著提升。

大型語言模型(LLM) ,NVIDIA 最近推出了TensorRT-LLM,這是一個開源庫,旨在增強NVIDIA 硬件上大型語言模型(LLM) 的性能。

TensorRT-LLM 是一個在 NVIDIA Tensor Core GPU 上運行的開源庫。其主要功能是為開發人員提供一個實驗和構建新的大型語言模型的環境,這些模型構成了 ChatGPT 等生成式 AI 平台的基礎。該軟件專注於推理,可完善人工智能的訓練過程,幫助系統了解如何鏈接概念並做出預測。

剛剛宣布– NVIDIA TensorRT-LLM 增強大型語言模型#inference 在NVIDIA H100 Tensor Core GPU 上。 #LLM https://t.co/jMX0EDxkXJ

— NVIDIA AI 開發人員(@NVIDIAAIDev) 2023 年9 月8 日

Boost 背後的創新技術

大型語言模型(LLM) 的挑戰在於由於它們的多功能性,使得批量請求並同時執行它們變得很困難。 NVIDIA 及其合作夥伴通過將TensorRT-LLM 與一種稱為“動態批處理”的高級調度方法集成來應對這一挑戰。這種創新方法允許將文本生成分割為多個子任務。

本質上,該系統可以同時處理來自不同請求的新批次,而不是等待單個批次完成。TensorRT-LLM 包含TensorRT 深度學習編譯器、優化的內核、預處理和後處理步驟,並促進跨多個GPU 和節點的通信。在NVIDIA GPU 上具有無與倫比的性能,可實現新穎的大型語言模型實驗、快速定制和峰值性能。

卓越基準測試和未來前景

NVIDIA 的GH200 Grace Hopper Superchip結合了Hopper GPU和Grace CPU,在最新的MLPerf行業基準測試中展示了令人印象深刻的結果。該超級芯片與H100 GPU一起在MLPerf的所有數據中心測試中處於領先地位,包括計算機視覺、語音識別、醫療成像,以及法學碩士推理和推薦系統的更苛刻的任務。此外,NVIDIA 還宣布即將推出軟件更新,該更新將進一步增強其 GH200 Grace Hopper 超級芯片的 AI 推理能力。

AI 是 Nvidia 的主要增長領域,該公司已經看到了這樣做的回報在市場中發揮主導作用。最近的分析顯示,Nvidia 每銷售一個 H100 Tensor Core GPU 就能獲得近 1,000% 的利潤。知名金融服務公司Raymond James 的財務見解在《巴倫周刊》上分享,據估計,一款此類 GPU 的生產成本約為 3,320 美元。與此形成鮮明對比的是,Nvidia 這些 GPU 的售價在 25,000 美元到 30,000 美元之間波動,具體取決於訂單量。

Categories: IT Info