使用新的NVIDIA Triton和NVIDIA TensorRT功能增強您的AI推理

NVIDIA AI推理軟件由NVIDIA Triton推理服務器(開源推理服務軟件)和NVIDIA TensorRT(用於高性能深度學習推理的SDK,包括深度學習推理優化器和運行時)組成。它們為所有人工智能深度學習用例提供加速推理。NVIDIA Triton還支持傳統的機器學習(ML)模型和cpu推理。這篇文章解釋了該軟件最近添加的主要新功能。

NVIDIA Triton的新功能包括PyTriton的本地Python支持,模型分析器更新和NVIDIA Triton管理服務。

PyTriton的原生Python支持
PyTriton特性提供了壹個簡單的接口,可以在Python代碼中使用NVIDIA Triton Inference Server。PyTriton使Python開發人員能夠使用NVIDIA Triton來服務從AI模型或簡單處理函數到整個推理流程的所有內容。

Python中對NVIDIA Triton的本機支持使機器學習模型的快速原型和測試具有性能,效率和高硬件利用率。壹行代碼就可以啟動NVIDIA Triton,提供諸如動態批處理、並發模型執行以及從Python代碼中支持gpu和cpu等好處。這種方法消除了建立模型存儲庫和轉換模型格式的需要。您可以使用現有的推理流程代碼而無需修改。要嘗試它,請訪問GitHub上的triton-inference-server鱷pytriton。

模型分析
模型分析器是壹種工具,可幫助找到最佳的NVIDIA Triton模型配置(如批處理大小、模型並發性和精度),以部署有效的推理。由於新的快速搜索模式,您可以在幾分鐘內獲得最佳配置,而無需花費數天時間手動試驗配置參數。

現在,除了支持具有預處理和後處理需求的現代推理工作負載的獨立模型之外,模型分析器還支持模型集成(也稱為模型流程)和多模型分析。您可以為整個ML流程運行模型分析器。有關更多信息,請參閱模型分析器文檔。

NVIDIA Triton管理服務
NVIDIA Triton Management Service為高效的多模型推理提供模型編排功能。該功能作為生產服務運行,根據需要加載模型,在不使用時卸載模型。

它通過在單個GPU服務器上放置盡可能多的模型來有效地分配GPU資源,並有助於優化來自不同框架的模型,以實現高效的內存使用。它現在支持基於推斷和加密(AES-256)與應用程序通信的高利用率的NVIDIA Triton實例的自動縮放。申請提前使用NVIDIA Triton管理服務。

英偉達TensorRT
TensorRT的新特性包括多gpu多節點推理、性能和硬件優化等。

多gpu多節點推理
TensorRT可以用於運行大型語言模型(llm)的多gpu多節點推理。它支持GPT-3 175B, 530B和6.7B型號。這些模型不需要ONNX轉換;相反,壹個簡單的Python API可用於優化多gpu推理。現在可以在私人搶先體驗中使用。請聯系您的NVIDIA客戶團隊了解更多詳情。

TensorRT 8.6
TensorRT 8.6現在可以在早期訪問,包括以下主要功能:

生成式AI擴散和變壓器模型的性能優化
在不同GPU架構(NVIDIA Ampere架構及更高版本)上構建和運行的硬件兼容性
版本兼容性,可以在不同的TensorRT版本(TensorRT 8.6及更高版本)上構建和運行
在構建時間和推理性能之間進行交易的優化級別

客戶和合作夥伴亮點
了解以下新客戶和合作夥伴如何使用NVIDIA Triton和TensorRT進行AI推理。

Oracle AI使用NVIDIA Triton在OCI Vision中提供基於深度學習的圖像分析工作負載。視覺服務用於各種用例,從制造缺陷檢查到在線圖像中的標記項目。Oracle使用NVIDIA Triton實現了50%的低延遲和2倍的吞吐量。

Uber利用NVIDIA Triton為該公司基於深度學習的全球ETA模型DeepETA每秒提供數十萬次預測。

在線體驗平臺Roblox使用NVIDIA Triton在多個框架中運行所有人工智能模型,以實現遊戲推薦、構建虛擬角色、內容審核、市場廣告和欺詐檢測等用例。NVIDIA Triton讓數據科學家和機器學習工程師可以自由選擇他們的框架:TensorFlow、PyTorch、ONNX或原始Python代碼。

DocuSign使用NVIDIA Triton運行NLP和計算機視覺模型,用於人工智能輔助審查和理解協議和合同條款。與之前基於cpu的解決方案相比,該公司實現了10倍的加速。

描述使用TensorRT優化模型來加速人工智能推理。它允許用戶替換他們的視頻背景,增強他們的演講,以產生工作室質量的內容,而不需要工作室。

CoreWeave是壹家專業的GPU雲提供商,使用NVIDIA Triton為llm提供低延遲和高吞吐量的服務。

NVIDIA推理軟件提供了在雲端、數據中心、網絡邊緣和嵌入式設備中為下壹代AI產品和服務提供動力的關鍵性能、效率和響應能力。從今天開始使用NVIDIA Triton和TensorRT。

作者:Shankar Chandrasekaran/NVDIA

PHP Code Snippets Powered By : XYZScripts.com