第27屆聯合國科技大會
第27屆聯合國科技大會在瑞士舉行的世界數字技朮院(WDTA)發布了《生成式人工智能應用安全測試標准》和《大語言模型安全測試方法》兩項國際標准。
兩項生成式人工智能安全標准由螞蟻集團、OpenAI、Meta、英偉達、亞馬遜、微軟、加利福尼亞大學、喬治城大學等機搆的研究人員編寫,并經騰訊、百度、OPPO、科大訊飛、云起無垠、樂精靈、谷歌、環匯、KPCB、Reco AI、Exabeam、NovNet、BreachQuest、Anthropic、Kainos、Precize.ai、Private AI、芝加哥大學、卡內基梅隆大學、香港科技大學、加利福尼亞大學伯克利分校、WDTA、CSA、ISACA、SIG、Center for Inclusive Chan、University of Chicago、OWASP基金等機搆審核,全球共 36 家公司、高校及機搆參與編制。
WDTA是在日內瓦注冊的國際非政府組織,遵從聯合國指導框架,致力於在全球范圍內推進數字技朮,促進國際合作。AI STR(安全、可信、負責任)計划是WDTA的核心倡議,旨在確保人工智能系統的安全性、可信性和責任性。
據悉,這是全球首次發布專門針對生成式人工智能和大語言模型的世界標准。填補了大語言模型和生成式AI應用方面安全測試領域的空白,為業界提供了統一的測試框架。它們可以為AI企業提供明確的測試要求和方法,有助於提高AI系統安全性,減少潛在風險,促進AI技朮負責任發展,增強公眾信任。
第一個標准是《生成式人工智能應用安全測試標准》,由WDTA作為牽頭單位,螞蟻集團、OpenAI、Meta、英偉達、微軟等多家單位共同參與。這項標准為測試和驗證生成式 AI 應用的安全性提供了一個框架,特別是那些使用大語言模型(LLM)搆建的應用程序。它定義了人工智能應用程序架搆每一層的測試和驗證范圍,包括基礎模型選擇、嵌入和矢量數據庫、RAG 或檢索增強生成、AI 應用運行時安全等等。
第二個標准是《大語言模型安全測試方法》,由螞蟻集團作為牽頭單位。這項標准為大模型本身的安全性評估提供了一套全面、嚴謹且實操性強的結搆性方案。它提出了大語言模型的安全風險分類、攻擊的分類分級方法以及測試方法,并率先給出了四種不同攻擊強度的攻擊手法分類標准,系統地提供了大語言模型抗攻擊測試的評估指標、能力分級、測試數據集搆建要求和測試流程等。
通過這項標准,可以有效解決大語言模型固有的復雜性,全面測試和驗證大語言模型應對不同類型對抗攻擊技朮的抵御能力,包括L1隨機攻擊、L2盲盒攻擊、L3黑盒攻擊和L4白盒攻擊,使得開發人員和組織能夠識別和緩解潛在漏洞,并最終提高使用大語言模型搆建的人工智能系統的安全性和可靠性。