关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1045人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国防部长下令再延长两艘军舰在地中海驻扎时间

央视新闻客户端 浏览 12959

精致詹詹,美媒晒出詹姆斯更衣室座位边摆满护肤品的照片

懂球帝 浏览 387

倪妮周雨彤回应撞衫:今天我俩有点默契

新金牌娱乐观察家 浏览 13510

德邦快递实力夺魁:斩获中国跨境电商物流“头程物流标杆企业”奖项

中国经济时报 浏览 409

如果你已过了40岁,这3个穿搭小心机值得参考

静儿时尚达人 浏览 13543

也门胡塞武装证实也门萨那等地遭美英空袭

界面新闻 浏览 12645

试图“摆脱中国”,印度要开采阿根廷锂矿

环球时报国际 浏览 12764

帕森斯:哈登证明了他仍能打出统治力 G4让我想起他的MVP赛季

直播吧 浏览 18246

马切吉亚尼:迈尼昂扑点的秘诀是米兰的门将教练菲利皮

懂球帝 浏览 726

"烟花秀"事件后始祖鸟遇"三连挫":大中华区总经理离职

每日经济新闻 浏览 6828

听说,好多人都在等着彭小苒大火

时尚COSMO 浏览 197

车企的零自燃宣言,谁才是真安全?

百姓评车 浏览 756

AI大模型"减肥"新突破:MWS AI团队让语言模型变小却更聪明

科技行者 浏览 922

媒体:瓦格纳去了白俄罗斯 更戏剧性的一幕发生了

上观新闻 浏览 15509

4年“伺候”4位总经理,水井坊公关一号位挂印封金

财经众议院 浏览 202

马杜罗怒斥美“南方之矛”行动:国际法终将被维护

国际在线 浏览 577

250亿基金两年暴亏49%, 百万基民损失100亿,银华基金焦巍被市场先生打懵了

探长读财 浏览 16700

40岁女人的简约精致美,简单单品搭出高级感,变美如此轻松

静儿时尚达人 浏览 10946

金晨两种穿衣模式赚足回头率 身材太优越!

巧百搭 浏览 15308

车企曾说弃用,激光雷达为什么却在年底迎来爆发?

电厂 浏览 12941

37岁朴敏英穿高中制服!吐舌头卖萌嘟嘴有违和感,瘦脱相但仍很美

文艺圈娱乐号 浏览 12833
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1