首页 > 生活分享 > 免费教学 > 可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

发布时间:2024-04-19 09:04:12

 4 月 18 日消息,全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

免费教学更多>>

Uber计划2026年底前在15城推出自动驾驶出租车服务,Q4及Q1盈利预期未达市场预期 起亚宣布2026款Niro插电混动版将退出美国市场 印度车企1月销量普遍增长,SUV与电动车成主要驱动力 原力无限—小原子(YUANZI)首日盲订即突破100台 欧盟、日本与美国就关键矿产供应链韧性建立战略伙伴关系 定义行业新节点:德赛西威发布首款8T8R 4D毫米波雷达 李想:全新理想L9不仅是好车,更是具身智能机器人开山之作 俄罗斯2026年1月汽车市场多品类销量同比下滑,商用车降幅显著 广汽高域飞行汽车AirCab,斩获33亿元订单! 中科创达旗下晓悟智能与北京人形机器人创新中心达成战略合作 重庆国资出手,入股一家做“机器人大脑”的公司 一汽红旗全固态电池首台样车成功下线 瑞虎系又多一家企业IPO,目前已过会 离子能源公司完成数亿元Pre-A轮融资 小米前高管创业,获高瓴、智元等数千万掷投 马自达押油电混合:下一代纯电推迟至2029年 2025越南车市大反转,“丰田们”的时代变了 启境汽车发布第三期网友问答,线下服务网络规划明确 新款比亚迪海豹06 EV正式进入工信部目录,新车将有望在年内上市 大鹏展翅已高飞?方程豹钛7,单月销量升至3.4万台 精准踩中用户痛点 合资新车智能焕新 春节购车必看 冰雪试驾别克至境世家:在冰面上,你会忘了这是一台新能源大型 比亚迪放大招:宋Pro DM-i 220km版是否诚意过头? 凭实力精准卡位,HR-V打造十万元级SUV新标杆 苦走10年投融路,李斌热泪盈眶:今天,我们终于赢了! 售价 30 万元以上市场分析 奔驰品牌销量与成交均价居前 奇 瑞or比亚迪,谁将成为2026海外第一? 降幅垫底:广汽本田 5 年“ 5 连降”,高洪祥难为无米之炊? 日产全新轩逸量产下线!前脸升级V型,颜值飙升不少,一季度上市 小鹏汽车2026全球新品发布会重磅来袭,四款新车开启AI出行新时代