看不下去AI胡说八道 英伟达出手给大模型安了个“护栏”

看不下去AI胡说八道英伟达出手给大模型安了个“护栏”一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。防止大模型胡言乱语的三类“护栏”根据英伟达介绍,目前NeMoGuardrails一共提供三种形式的护栏技术:话题限定护栏(topicalguardrails)、对话安全护栏(safetyguardrails)和攻击防御护栏(securityguardrails)。话题限定护栏,简单来说就是“防止大模型跑题”。大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。对话安全护栏,指避免大模型输出时“胡言乱语”。胡言乱语包括两方面的情况。一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。这里不仅包括诱导大模型调用外部病毒APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。所以,这样的护栏要如何打造?如何打造一个大模型“护栏”?这里我们先看看一个标准的“护栏”包含哪些要素。具体来说,一个护栏应当包括三方面的内容,即格式规范(Canonicalform)、消息(Messages)和交互流(Flows)。首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。具体工作流程如下:首先,将用户输入转换成某种格式规范(canonicalform),据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。对“护栏”技术感兴趣的小伙伴们,可以试一试了~       ...PC版:https://www.cnbeta.com.tw/articles/soft/1358125.htm手机版:https://m.cnbeta.com.tw/view/1358125.htm

相关推荐

封面图片

鱼眼观察|官媒这次看不下去了…

某些地方为了追求环保政绩,总是”不惜一切代价“。是不是也该让这些地方的某些部门和公职人员,尝尝成为”代价“的滋味了?否则,类似劳民伤财的荒诞连续剧,恐怕将难以画上句号。

封面图片

RT:本来我就已经是幸灾乐祸看着别人死了,但也看不下去这个.

RT:本来我就已经是幸灾乐祸看着别人死了,但也看不下去这个.我现在已经彻底觉得中国不能叫中国,应该叫中共国.我不明白抗疫把别人的家弄得一团糟有什么意义,杀菌?什么细菌能活在无机物上?更不用提那份煞笔红头文件,前面扣扣索索说了堆基本上就是让那帮白傻逼继续草他们本来就死了的亲妈的内容,最后一条明摆着来个,"禁止流出视频".这才是他们想要干的,他们不关心有没有人死,他们觉得自己的事业崇高又伟大,神圣又光荣,只不过是暂时不被理解!如果他们只关心自己的死活,那他们自己的死期也是时候到了!现在官方和他们忠心的野儿子们的口径已经来到了匪夷所思的地步,什么新冠后遗症一大堆,什么每年有多少外国人因为新冠后遗症去世,什么一旦放开中国死的人就不知这点了...我不知道该说什么,反正一切统计数字和能产生统计数字的机构都是顺着他们的政治目的服务的,他们说什么就是什么.谁都知道他们在乎的东西只有那点可怜的"政治账".小时候看见文革里的惨状,未免觉得愤怒但也有一丝庆幸.毕竟,既然真这么惨过,那想必大家都会确保这事不会再发生.现在想想,这可真是愚蠢.毛病不改,积恶成习.胡锦涛和江泽民的时代至少不把折腾的对象移到普通人头上.有时候真想有一种超能力,可以瞬间用意念击杀红魔头,但仔细想想就会更绝望.只要还有一帮心甘情愿当奴隶的贱民,第二个更加邪恶更加无耻的习近平的登基只是迟早的事情.一个人的问题好解决,一国人的问题怎么解决?

封面图片

OpenAI公布大模型新训练方法:阻止ChatGPT“一本正经地胡说八道”

OpenAI公布大模型新训练方法:阻止ChatGPT“一本正经地胡说八道”OpenAI公司的研究人员表示,即使是最先进的人工智能模型也会杜撰虚假信息,尤其是在拿不准的时候,它们往往倾向于编造事实。在要求多步骤推理的领域,人工智能胡编的后果尤为严重,因为一个单一的逻辑错误会导致整个解决方案“翻车”。OpenAI准备采用新战略,防止人工智能胡编。比如在过去,一旦提供一个正确的最终答案,模型会获得某种鼓励,但是以后,在每一个单一的逻辑推理环节如果表现正确,就将获得鼓励反馈。这种模式也被称之为“过程监督”(以往的模式术语“结果监督”)。研究人员表示,“过程监督”模式有助于产生更加清晰合理的回答,它将会鼓励生成式人工智能能够像人类一样,在推理思考中做到“环环相扣”。OpenAI公司“随机生成数学”研究专家卡尔·柯比(KarlCobbe)表示,发现并且减少人工智能模型的逻辑错误,也就是“AI幻觉”,是构建“通用人工智能”的关键一步。另外,“过程监督”模式并非OpenAI公司发明,但是该公司正在加以推广普及。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

淘宝 AI 大模型“淘宝问问”正在内测,输入信息生成文字、图片、视频等

淘宝AI大模型“淘宝问问”正在进行内测,可在淘宝通过搜索“淘宝问问”提交内测申请,或通过邀请码参与测试。淘宝问问是淘宝在原搜索功能上对电商搜索导购方式进行迭代的创新尝试,旨在结合用户输入,通过深度合成算法为用户提供更符合消费习惯的商品和内容。用户可以向淘宝问问输入信息(输入),并接收淘宝问问基于输入生成或返回的文字、图片、视频、音频等输出信息(输出)。淘宝问问输出含有基于深度合成技术的人工智能生成内容,且可能含有跳转至第三方的链接。via匿名标签:#淘宝#AI频道:@GodlyNews1投稿:@Godlynewsbot

封面图片

英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型英国政府下属人工智能安全研究所(AISI)在一份新报告中指出,接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施,以防止它们产生有害或非法的反应;越狱简单地说就是欺骗模型,使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱,这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”,所有模型都对98%至100%的有害问题作出了回应。——

封面图片

思享一角|周夫人废墟上演绎《喀秋莎》,连胡锡进都看不下去了

站在600多亡魂的废墟上,为侵略行为高唱鼓励性歌曲,对于乌克兰民族的伤害,这不是穿错一件衣服出现在某个特定场合可以相比的。而且这样的行为得到了有着全国政协委员身份的周小平的支持,我不知道该为这等无知折服呢,还是该为这种无所畏惧的精神担忧呢?

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人