首页 > 生活分享 > 免费教学 > 谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

发布时间:2024-03-31 20:20:01来源: 15210273549

 3 月 31 日消息,无论当下 AI 聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI 有时会在回答中“满口跑火车”,甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器(IT之家注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

为评估其性能,研究人员创建了包含约 16000 个事实的数据集 LongFact,并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示,在对 100 个有争议的事实进行的重点分析中,SAFE 的判定在进一步审查下正确率达到 76% 。与此同时,该框架还具备经济性优势:成本比人工注释便宜 20 多倍

免费教学更多>>

苹果:为什么我突然在中国对iPhone 16等降价!华为等国产手机背刺 2500元良心机!骁龙8Gen3+5500mAh+120W,vivo新卷王诞生 REDMI Turbo 4海外版曝光:电池降为6000mAh! 从4699元跌至3289元,蔡司100倍变焦+天玑9300+芯片,vivo售价更亲民了 雷鸟CEO李宏伟:站在Meta肩膀上超越Meta,雷鸟V3 1799元起 Meta、苹果旗舰头显纷纷停产!价格与体验失衡是最大硬伤? 2024年中国手机市场大局已定 几家欢喜几家愁? 英伟达RTX 50系新显卡发布!AI计算又翻开了崭新一页? 那些科学家下了大功夫的美食,拼多多希望让更多人吃到 京东科技申请服务器自动化测试方法和装置专利,实现大规模服务器自动化测试 阿里巴巴:斥资3226.13万美元回购306.53万股 经典与潮流并存!27款最具影响力车型回顾,你拥有过哪一款? 负债不够存单来凑,年内多家银行同业存单罕见“提额” 菜鸟速递与大润发加深同城配送合作 已在41城提供半日达服务 社会物流成本稳步下降,实体经济“筋络”更加畅通 589套正式交楼,广州一村村民喜提新房过年 明年如何“用力”推动楼市止跌回稳?全国住建工作会议部署了这些重点 多方共议房产直播规范监管 共促消费者权益保护 东风本田烨S7实车展示,Model Y同级别,够实力和自主品牌一战吗? 2024年广西工业职业技术学院轻工纺织类人才引进公告 2024年湖北宜昌市西陵区事业单位选调14人公告 四川凉山普格县委政法委员会招聘专职网格员7人公告 四川凉山普格县退役军人事务局招聘临聘人员公告 云南玉溪砚山县蚌峨乡人民政府招聘公益性岗位人员公告 云南西双版纳州民族宗教事务局公益性岗位招聘公告 2025年河北唐山市路北区赴高校选聘55名教师公告 2024年河南濮阳县事业单位招聘115人公告 2024年吉林通化市辉南县教育系统招聘急需紧缺专业教师5人公告 2024年河北廊坊燕京职业技术学院选聘专任教师17人公告 2024年河北廊坊燕京职业技术学院招聘教辅人员7人公告