关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4796人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

强奸大嫂凶手出狱后去大嫂家 大嫂吓得穿内衣跑出求救

澎湃新闻 浏览 5493

极氪12月交付超3万台,2025全年销量超22.4万台

大象新闻 浏览 3679

萨莫拉诺:巴萨必须引导好亚马尔,从没听过梅西说皇马偷窃

懂球帝 浏览 4220

贝弗利:韦德希望看到哈登输掉抢七,骑士输了他肯定要发推的

懂球帝 浏览 1360

海博思创400多亿市值背后,留美博士张剑辉的逆袭之路

尺度商业 浏览 3728

蔡康永发文缅怀大S,说大S应该被好好疼爱的

素素娱乐 浏览 3362

CDS复兴?“AI发债潮”重燃了市场的“次贷回忆”

华尔街见闻官方 浏览 4300

开局2026,企业家的坚守与求变|封面故事

中国企业家杂志 浏览 3655

国资入主黑芝麻再进一步:国资委审批落地,约定承诺期净利润累计不低于3.15亿元

红星资本局 浏览 3819

南海舰队发声:中国军人,只有战死没有吓死

极目新闻 浏览 3347

吉利汽车5月销量23.76万辆 连续三月双增创出口新高

网易汽车 浏览 576

李亚鹏确认,靠卖北京房子和直播卖茶具,5000万债务已还清!

荆楚寰宇文枢 浏览 3651

美议员炒作:中国发展"太吓人" 核军控谈判必须拉进来

澎湃新闻 浏览 34755

“装修一哥”绝境重生,国资输血7亿,7000债主表决通过重整计划

壹只灰鸽子 浏览 3715

今年以来最亮彗星现身天际,它的名字叫“莱蒙”

新华社 浏览 4502

最强“卖铲人” 寒武纪靠AI芯片疯狂掘金

21世纪经济报道 浏览 5139

CBA疯狂一夜!争冠形势大乱:北京送广东首败,助攻广厦升至第一

侃球熊弟 浏览 3743

马斯克暗示 SpaceX明年IPO?

北京商报 浏览 3891

“Mag 7”过时了?华尔街想要AI!

华尔街见闻官方 浏览 5065

京粤沪专家齐聚,2026“人工智能+”教育行动在深外举行

南方都市报 浏览 1490

哈马斯称以色列未履行停火协议 呼吁美方施压

国际在线 浏览 3784
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1