关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4805人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

江铃旗下羿驰 05S 纯电紧凑型 SUV 将于10月16日上市

IT之家 浏览 4497

皇马TV显示,贝林厄姆将在国家德比中担任首发右边锋

懂球帝 浏览 4517

法媒:美国将德国最大贸易伙伴地位拱手让给中国

参考消息 浏览 9374

餐馆称免费加面游客二次续面却被要求付3元 官方通报

封面新闻 浏览 22932

续命式改款,新款英菲尼迪QX50难解市场困局

爱驾天下 浏览 4537

新款红旗HS5曝光,内外设计大改,或推插混车型,半年内上市!

车讯简报 浏览 3439

衣服完全没有必要越买越多!准备好这3款单品,百搭又舒适

静儿时尚达人 浏览 3545

年度王炸爽剧,还是烂尾了

独立鱼 浏览 4159

上汽销量反超比亚迪,真实“含金量”如何

经济观察报 浏览 4646

何超琼近况曝光,生图皮包骨大小眼,西装裤松垮

张发林 浏览 5002

斯瓦泰克输高芙无碍晋级!波兰淘汰美国,连续3年跻身联合杯决赛

全景体育V 浏览 3620

现货金价再创历史新高,牛市还能走多远?

国是直通车 浏览 3542

死磕影像十一年:vivo探索另一种可能

远川研究所 浏览 4545

委内瑞拉防长:特朗普封锁加勒比海域是“妄想”

每日经济新闻 浏览 3829

上海AI实验室ImgCoder:AI实现科学手绘图精准生成

科技行者 浏览 3451

44岁阿娇自曝手抖出肝不太好,已戒酒一年多

小咪侃娱圈 浏览 4478

巴基斯坦俾路支省反恐行动打死145名恐怖分子

上观新闻 浏览 3375

特朗普又来威胁伊朗:若达不成协议 或有坏事发生

财联社 浏览 3298

楊千嬅开live老公乱入因一事说离婚

粤睇先生 浏览 3831

河南"妻儿三人被发小杀害案"宣判:被告人获死刑

红星新闻 浏览 32418

恩里克:登贝莱得流感了所以没来,我们已习惯这赛季没有他

懂球帝 浏览 3878
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1