关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4803人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

带队英超客胜曼城和利物浦,阿莫林是近五个赛季唯一一人

懂球帝 浏览 4765

50+女性穿衣没头绪?教你3个显瘦还时髦的思路,照搬就好看

静儿时尚达人 浏览 3556

媒体:高市当选新首相 极端保守立场或激化与中国矛盾

环球网资讯 浏览 9586

32岁杨紫又“变脸”,皮肤紧致一脸高原红,重回“锦觅”颜值巅峰

温柔娱公子 浏览 5142

狂揽450亿订单,汽零、机器人双巨头,破局重生!

飞鲸投研 浏览 3471

恩里克:这场比赛对登贝莱有帮助;我们希望继续赢得更多奖杯

懂球帝 浏览 3887

美英之后,韩国也对太子集团出手了,陈志到底搞了多少钱?

北向财经 浏览 4549

性压抑时代,搞黄色成了AI的第一生产力

虎嗅APP 浏览 3415

美股三大股指高开 纳指盘初涨0.87%

证券时报 浏览 4019

小鹏汽车11月交付新车36,728台 1-11月累计交付391,937台

网易汽车 浏览 3968

连续被血洗!今年前十个月的涨幅,币圈一个月跌完了

华尔街见闻官方 浏览 4302

意天空:德布劳内至少伤缺3-4个月,需决定手术还是保守治疗

懂球帝 浏览 4411

卢卡申科:俄现在和过去都有打击泽连斯基某一官邸能力

鲁中晨报 浏览 19097

汽车“换道超车”,伪命题or真理?

汽车公社 浏览 4204

强奸大嫂凶手出狱后去大嫂家 大嫂吓得穿内衣跑出求救

澎湃新闻 浏览 5499

全球股市遭遇“黑天鹅”,A股会跌出“黄金坑”吗?

郭施亮 浏览 4873

极石汽车1月交付新车1028台 拓宽海外业务

网易汽车 浏览 3344

爸爸是国家一级演员,他36岁靠《四喜》红了

睿鉴历史 浏览 3866

西蒙菲莎大学发布:1.7万图像皮肤病变数据集训练AI诊断

科技行者 浏览 3584

记者:贺希宁效力深圳8赛季仅缺席19场,铁人属性源自极致自律

懂球帝 浏览 728

全智贤与《暴风圈》剧方仍未发文道歉

韩小娱 浏览 5570
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1