首页 > 生活分享 > 免费教学 > 可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

发布时间:2024-04-19 09:04:12来源: 15210273549

 4 月 18 日消息,全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

免费教学更多>>

那些科学家下了大功夫的美食,拼多多希望让更多人吃到 京东科技申请服务器自动化测试方法和装置专利,实现大规模服务器自动化测试 阿里巴巴:斥资3226.13万美元回购306.53万股 经典与潮流并存!27款最具影响力车型回顾,你拥有过哪一款? 负债不够存单来凑,年内多家银行同业存单罕见“提额” 菜鸟速递与大润发加深同城配送合作 已在41城提供半日达服务 社会物流成本稳步下降,实体经济“筋络”更加畅通 589套正式交楼,广州一村村民喜提新房过年 明年如何“用力”推动楼市止跌回稳?全国住建工作会议部署了这些重点 多方共议房产直播规范监管 共促消费者权益保护 东风本田烨S7实车展示,Model Y同级别,够实力和自主品牌一战吗? 2024年广西工业职业技术学院轻工纺织类人才引进公告 2024年湖北宜昌市西陵区事业单位选调14人公告 四川凉山普格县委政法委员会招聘专职网格员7人公告 四川凉山普格县退役军人事务局招聘临聘人员公告 云南玉溪砚山县蚌峨乡人民政府招聘公益性岗位人员公告 云南西双版纳州民族宗教事务局公益性岗位招聘公告 2025年河北唐山市路北区赴高校选聘55名教师公告 2024年河南濮阳县事业单位招聘115人公告 2024年吉林通化市辉南县教育系统招聘急需紧缺专业教师5人公告 2024年河北廊坊燕京职业技术学院选聘专任教师17人公告 2024年河北廊坊燕京职业技术学院招聘教辅人员7人公告 2025年辽宁大连市甘井子区教育系统自主招聘应届生104人公告 2024年辽宁沈阳医科大学招聘高层次和急需紧缺人才公告 2024年四川绵阳科技城新区招聘社区工作者25人公告 江苏宿迁市公安局招聘辅警29人简章 2024年江苏南京市雨花台区人民政府古雄街道办事处招聘编外工作人员10人简章 2025年福建宁德市寿宁县教育局招聘高层次专任教师29人公告 2024年福建龙岩市永定区事业单位招聘10人公告 2024年浙江大学“一带一路”国际医学院教师岗招聘公告