Skip to main content
QUICK REVIEW

[论文解读] Standardization Trends on Safety and Trustworthiness Technology for Advanced AI

Jonghong Jeon|arXiv (Cornell University)|Oct 29, 2024
Risk and Safety Analysis被引用 3
一句话总结

本文分析了先进人工智能在安全性和可信度方面的全球标准化趋势,重点关注大语言模型和基础模型。研究识别了亟需标准化的关键技术领域,提出了应对新兴监管框架的战略对策,并阐述了政策影响,旨在通过国际合作与技术标准化,实现安全、可靠且全球协调一致的人工智能发展。

ABSTRACT

Artificial Intelligence (AI) has rapidly evolved over the past decade and has advanced in areas such as language comprehension, image and video recognition, programming, and scientific reasoning. Recent AI technologies based on large language models and foundation models are approaching or surpassing artificial general intelligence. These systems demonstrate superior performance in complex problem solving, natural language processing, and multi-domain tasks, and can potentially transform fields such as science, industry, healthcare, and education. However, these advancements have raised concerns regarding the safety and trustworthiness of advanced AI, including risks related to uncontrollability, ethical conflicts, long-term socioeconomic impacts, and safety assurance. Efforts are being expended to develop internationally agreed-upon standards to ensure the safety and reliability of AI. This study analyzes international trends in safety and trustworthiness standardization for advanced AI, identifies key areas for standardization, proposes future directions and strategies, and draws policy implications. The goal is to support the safe and trustworthy development of advanced AI and enhance international competitiveness through effective standardization.

研究动机与目标

  • 分析先进人工智能系统在安全性和可信度方面的国际标准化趋势。
  • 识别为提升人工智能安全性与可靠性而亟需标准化的关键技术领域。
  • 预测人工智能标准化的未来发展方向,并为产业与政策提出战略应对建议。
  • 推导出加强国际竞争力与全球人工智能安全标准协调一致的政策影响。

提出的方法

  • 基于能力、数据类型和自主水平,对先进人工智能系统类型(如大语言模型、多模态大语言模型、通用人工智能、超级人工智能)进行对比分析。
  • 审查并映射监管框架(如欧盟人工智能法案和美国人工智能行政命令),以识别与技术标准的协同需求。
  • 将现有及新兴的国际标准(如ISO/IEC、IEC、NIST)映射至透明度、风险管理及能效等领域的监管要求。
  • 通过对比监管要求与现有技术标准及基准框架,识别当前标准化中的缺口。
  • 提出未来标准化的框架,通过分类新型风险并为自主性高、复杂度高的人工智能系统开发评估技术。
  • 引入可信度特征矩阵(TCM)和基础模型透明度指数(FMTI)作为评估与引导标准化工作的工具。

实验结果

研究问题

  • RQ1先进人工智能在安全性和可信度方面的国际标准化趋势有哪些关键特征?
  • RQ2哪些技术领域和人工智能系统类型(如大语言模型、基础模型)亟需标准化以缓解新兴风险?
  • RQ3当前监管框架(如欧盟人工智能法案、美国人工智能行政命令)与现有国际技术标准在多大程度上保持一致?
  • RQ4先进人工智能系统在安全性、透明度和风险管理方面的标准化存在哪些主要缺口?
  • RQ5为实现人工智能标准化的全球协调与竞争力,需要哪些战略与政策响应?

主要发现

  • 先进人工智能系统,特别是大语言模型和基础模型,在复杂多领域任务中已接近或超过人类水平表现。
  • 仅有1%至3%的人工智能研究论文聚焦于安全问题,凸显了在能力开发与风险缓解之间研发投入的显著失衡。
  • 当前基础模型存在幻觉、连贯性差和鲁棒性不足等问题,且缺乏针对安全性和可信度的标准化评估框架。
  • 欧盟人工智能法案和美国人工智能行政命令等监管框架,对透明度、风险评估和事件报告提出要求,这些要求正日益与ISO/IEC标准(如ISO/IEC 23894:2023和ISO/IEC 42001)保持一致。
  • 在多样化应用场景中,尤其针对高风险人工智能和通用人工智能(GPAI)模型,亟需标准化的测试方法与验证技术。
  • 国际协作与标准协调一致对于管理系统性风险、确保先进人工智能发展的全球安全与可信度至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。