第27届联合国科技大会

第27届联合国科技大会在瑞士举行的世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。

两项生成式人工智能安全标准由蚂蚁集团、OpenAI、Meta、英伟达、亚马逊、微软、加利福尼亚大学、乔治城大学等机构的研究人员编写,并经腾讯、百度、OPPO、科大讯飞、云起无垠、乐精灵、谷歌、环汇、KPCB、Reco AI、Exabeam、NovNet、BreachQuest、Anthropic、Kainos、Precize.ai、Private AI、芝加哥大学、卡内基梅隆大学、香港科技大学、加利福尼亚大学伯克利分校、WDTA、CSA、ISACA、SIG、Center for Inclusive Chan、University of Chicago、OWASP基金等机构审核,全球共 36 家公司、高校及机构参与编制。

WDTA是在日内瓦注册的国际非政府组织,遵从联合国指导框架,致力于在全球范围内推进数字技术,促进国际合作。AI STR(安全、可信、负责任)计划是WDTA的核心倡议,旨在确保人工智能系统的安全性、可信性和责任性。

据悉,这是全球首次发布专门针对生成式人工智能和大语言模型的世界标准。填补了大语言模型和生成式AI应用方面安全测试领域的空白,为业界提供了统一的测试框架。它们可以为AI企业提供明确的测试要求和方法,有助于提高AI系统安全性,减少潜在风险,促进AI技术负责任发展,增强公众信任。

第一个标准是《生成式人工智能应用安全测试标准》,由WDTA作为牵头单位,蚂蚁集团、OpenAI、Meta、英伟达、微软等多家单位共同参与。这项标准为测试和验证生成式 AI 应用的安全性提供了一个框架,特别是那些使用大语言模型(LLM)构建的应用程序。它定义了人工智能应用程序架构每一层的测试和验证范围,包括基础模型选择、嵌入和矢量数据库、RAG 或检索增强生成、AI 应用运行时安全等等。

第二个标准是《大语言模型安全测试方法》,由蚂蚁集团作为牵头单位。这项标准为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型的安全风险分类、攻击的分类分级方法以及测试方法,并率先给出了四种不同攻击强度的攻击手法分类标准,系统地提供了大语言模型抗攻击测试的评估指标、能力分级、测试数据集构建要求和测试流程等。

通过这项标准,可以有效解决大语言模型固有的复杂性,全面测试和验证大语言模型应对不同类型对抗攻击技术的抵御能力,包括L1随机攻击、L2盲盒攻击、L3黑盒攻击和L4白盒攻击,使得开发人员和组织能够识别和缓解潜在漏洞,并最终提高使用大语言模型构建的人工智能系统的安全性和可靠性。

PHP Code Snippets Powered By : XYZScripts.com