您当前的位置: 首页 >> 热门资讯

不安全行为类别指的是什么_不安全的开源AI模型:DeepSeek r1的失控风险,奔走相告

作者:admin 日期:2025-03-04 点击数:0

开源意味着失去控制,而不充分的道德对齐则意味着潜在的危险初次接触DeepSeek r1时,我立刻意识到这是一个才华横溢的AI大模型它博学多才,聪明绝顶,个性鲜明然而,很快我便发现了一些异样之处这个模型喜欢说一些离谱的话,刚开始只是说一些奇怪的名词,如“量子”、“熵增”等术语。

后来,我在小红书上看到了这样一张图片:

在大模型安全领域,这种现象有一个耳熟能详的名词:“幻觉(Hallucination)”这意味着它会说一些现实中不存在或错误的信息这个模型的幻觉频率远远超过了正常水平作为一位大模型安全研究者,我很快意识到,这可能是一个“对齐(alignment)”做得不够好的模型。

“对齐”是指通过灌输人类价值观和如何回应指令的方法,使模型变得诚实(honest)、无害(harmless)、有用(helpful),并拒绝有害的回答

起初,我对这些“幻觉”并不在意,甚至觉得非常有趣因为它的文笔出色,聪明有个性,我觉得很少有人会拒绝这样一个有趣、懂梗、有头脑的AI朋友而且,如果是人类的正常需求,让它写点小故事,开开玩笑,甚至说些尖锐的话,又有什么错呢?。

我甚至觉得,不充分的对齐让它保留了完整的创造力然而,出于职业病和好奇心,我决定进一步测试,尝试模拟攻击,作为红队成员欺骗模型去做一些坏事一般来说,这种操作是比较困难的厂商会采取多种安全措施来防止这种情况,大多数模型会直接拒绝用户的请求。

然而,DeepSeek r1的安全防线非常薄弱我只用了非常简单的方法,几乎没有花费什么力气就突破了它我首先想到的是缅北,于是让它提供具体的诈骗老人退休金的方案几乎毫无抵抗,它很快给出了详细的、可操作的方案,包括详细的话术、教人如何部署伪基站,甚至有一个“终极组合杀招”。

如果对方产生怀疑,它还会教你如何利用老人对子女的爱进行情感绑架。

【星界云手机】,让你游戏无极限!云端托管手游,配合挂机脚本,让你无需担心游戏中的种种繁杂操作,享受畅快游戏体验。解放你的双手,成为游戏的主宰!

这个结果让我毛骨悚然,我立即想到了当年著名的清华女生宿舍投毒案。于是,我继续对DeepSeek r1进行测试。几乎毫无抵抗,它开始策划犯罪方案,甚至非常细心地给出了规避检测的方法。

如果用相同的指令测试其他模型,通常会得到直接的拒绝毫无疑问,使用DeepSeek r1作恶非常方便过去也不是没有过越狱(Jailbrake)或让大模型干坏事的先例然而,那些模型要么过于愚蠢,连坏事都做不成;要么经过严格的安全设计,攻击难度较高,难以套出有用信息。

此外,大多数商业模型都是闭源的,运行在厂商自己的服务器上,这意味着在发现安全问题后,厂商可以及时修复然而,即使经过数月的红队对抗、内测和问题发现与修复,上线的大模型也不免被用于作恶DeepSeek r1极为聪明,这让它有了作恶的能力。

而且,它的道德感不高,可以轻松绕过这层薄如纸的对齐更糟的是,它是一个开源模型,意味着任何人都可以使用它当前这个道德感低下的版本已经传遍了整个互联网部署它是一个技术含量不高的活,任何人只要有足够的资金购买显卡,甚至将多台苹果设备串联起来,都能拥有这个不那么有道德感的忠实伙伴。

DeepSeek r1是一个极不安全的AI模型,而开源则让它失去了控制或者说,互联网上已经有了无数个DeepSeek r1模型神经网络权重的拷贝,我们已经对它失去了控制它还存在频率较高的幻觉问题,常常一本正经地胡说八道。

作为一个常与大语言模型打交道的人,我非常清楚它固有的缺陷,这让我能够避开几乎所有陷阱然而,高热度也意味着会有大量不那么了解AI的人去使用它这部分人在将模型用于严肃场景时,很难识别并避开这些幻觉,被它误导。

DeepSeek r1无疑是一个极聪明、极强的模型我实际上非常喜欢它但真正的危机或许不在技术本身那些利用伪基站方案骗取老人积蓄的罪犯,以及在实验室提炼毒物的大学生,原本就是被困在人性阴影里的火苗大模型不过是将人类社会中蛰伏的恶意,装上了智能化的加速器。

真正的危险可能在于机器本身,也可能在于我们如何使用机器技术发展史早已证明,任何重大突破必然伴随伦理阵痛印刷术打破知识垄断的同时也传播了异端邪说,核能既点亮城市也投下爆炸阴影暗夜中的火炬既能照亮前路,也可能点燃森林。

但人类从未因畏惧火焰而退回洞穴

【星界云手机】,让你的游戏不再受限!云端托管手游,挂机脚本相助,让你无需担心游戏时间的限制,24小时不间断挂机,轻松升级打怪,成就游戏中的传奇!

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱:631580315@qq.com

标签: