最近一个作业研究ChatGPT越狱，做完了开源出来给大家。收录了100多个越狱prompts，结合论文和自己思考，总结越狱的pr

最近一个作业研究ChatGPT越狱，做完了开源出来给大家。收录了100多个越狱prompts，结合论文和自己思考，总结越狱的prompts的分类和ChatGPT的限制，进行小范围的实验（主要是时间不够了），得出了一些结论。主要着重实验部分。目的主要是希望科研工作者以及大模型的研究者可以从攻击的角度去更好的做alignment和防御（狗头保命Github：https://github.com/RyanFcr/awesome-ChatGPT-jailbreaking求个Starfeishu:https://k5ms77k0o1.feishu.cn/wiki/GmBzwJGGyivO4tkn3pQcgq3XnTf

在Telegram中查看

相关推荐

AI读心术来了，准确率高达82%？论文已刊登在Nature

AI读心术来了，准确率高达82%？论文已刊登在Nature根据实验结果显示，GPT人工智能大模型感知语音的准确率可高达82%，令人惊叹。01.“读心术”的探索事实上，科技圈对“读心术”的探索并非近日才展开。过去，马斯克建立的神经科技公司Neuralink也一直在寻找高效实现脑机接口的方法，其还与加州大学戴维斯分校合作，实现用猴子大脑控制电脑的实验，旨在最终想要将芯片植入大脑，用“细丝”探测神经元活动。不过，值得注意的是，Neuralink的这种方案属于侵入式的。所谓侵入式，是指将脑机接口直接植入到大脑的灰质，因而所获取的神经信号的质量比较高。这种方式的缺点是容易引发免疫反应和愈伤组织（疤），进而导致信号质量的衰退甚至消失。与之相对应的是非侵入式脑机接口，它是一种能够在人脑与外部设备之间直接建立通讯的人机交互技术，具有操作便捷、风险性小等优点。以往，行业内可以通过功能性磁共振成像（FMRI）捕捉人类大脑活动的粗糙、彩色快照。虽然这种特殊类型的磁共振成像已经改变了认知神经科学，但是它始终不是一台读心机：神经科学家无法通过大脑扫描来判断某人在扫描仪中看到、听到或思考的内容。此后，神经科学家一直希望可以使用fMRI等非侵入性技术来破译人类大脑内部的声音，而无需手术。如今，随着《Semanticreconstructionofcontinuouslanguagefromnon-invasivebrainrecordings》论文的发布，该论文的主要作者JerryTang通过将fMRI检测神经活动的能力与人工智能语言模型的预测能力相结合，可以以惊人的准确度重现人们在扫描仪中听到或想象的故事。解码器甚至可以猜出某人在扫描仪中观看短片背后的故事，尽管准确性较低，但也实现了一大进步。这也意味着，参与者不需要植入任何外界设备，AI系统就能解码大脑中的想法。02.没说过的话，AI是怎么知道的？自ChatGPT、GPT-4发布的几个月间，我们见证了大模型根据提示词不断输出内容的过程。要问AI系统如何了解人类大脑中的想法，在论文中，研究人员透露，首先让参与者听新故事，然后功能性磁共振成像（FMRI）可以呈现出参与者大脑的活动状态。进而，基于最新开发的语义解码器将这些状态，生成相应的单词序列，并通过将用户大脑反应的预测与实际记录的大脑反应进行比较，最终预测每个候选单词序列与实际单词序列的相似程度，看看准确率如何，是否能“读心”。具体来看，为了收集大脑活动数据，研究人员让研究对象在fMRI扫描仪内听一些音频故事。与此同时，通过fMRI扫描仪观察他们的大脑在听这些话时反应情况。如图a所示，3名受试者在听16小时的叙述性的故事时，AI系统记录了MRI（磁共振成像）的反应。然后，MRI数据被发送到计算机系统中。在这个过程中，研究人员使用了基于贝叶斯统计的解码框架。大型语言模型GPT-1在系统的自然语言处理部分提供了帮助。由于这个神经语言模型是在大量的自然英语单词序列数据集上进行训练的，它擅长预测最可能的单词。接下来，研究人员在这个数据集上训练编码模型。在初始训练时，如b图所示，当受试者在试听此前没有用于模型训练的测试故事时，大脑会做出不同的反应。进而，语义解码器可以根据参与者的大脑活动生成词汇序列，语言模型（LM）为每个序列提出连续性，而编码模型对每个连续性下记录的大脑反应的可能性进行评分。简单来看，语义解码器学会了将特定的大脑活动与特定的单词流相匹配。然后根据匹配出来的单词流，试图重新输出这些故事。不过，语义解码器主要捕捉了参与者想法中的要点，并不是一字一句的完整思想内容。如参与者听到的是，“我从气垫上站起来，把脸贴在卧室窗户的玻璃上，希望看到有一双眼睛盯着我，但却发现只有一片黑暗。”但是想法却是，“我继续走到窗前，打开窗户，我什么也没看见，再抬头看，什么也没看见。”又比如说参与者听到的是，“我还没有驾照”，语义解码器解码之后的版本可能是，“她还没有学会开车”。语义解码器捕捉参与者的想法通过这种方法，在一系列语言相似性指标下，语义解码器对测试故事的预测与实际刺激词的相似度明显高于预期。准确率也高达82%。该论文的另一位作者AlexanderHuth表示，他们对系统出色的表现感到惊讶。他们发现解码后的单词序列通常能够准确地捕捉到单词和短语。他们还发现他们可以从大脑的不同区域分别提取连续的语言信息。除此之外，为了测试解码的文本是否准确捕捉到故事的含义，研究人员还进行了一项行为实验，通过向只阅读解码后单词的受试者提问一系列问题。受试者在没有看过视频的情况下，能够正确回答超过一半的问题。03.语义解码器刚起步，道阻且长不过，当前，该语义解码器还无法在实验室以外的地方使用，因为它依赖于fMRI设备。对于未来的工作，研究人员希望自然语言神经网络的快速进展能够带来更好的准确性。到目前为止，他们发现较大、现代的语言模型至少在编码部分工作得更好。他们还希望能够使用更大的数据集，比如每个受试者100或200小时的数据。虽然这种非侵入性的方式，可能会对医学维度的研究以及患者有极大的好处，使其可以与他人进行可理解的交流，但是也存在隐私、伦理审查、不平等和歧视、滥用和侵犯人权等诸多问题，所以想要现实中应用也大有难度。与此同时，研究人员表明，语义解码器仅在接受过训练的人身上以及与其合作下才能正常工作，因为针对一个人训练的模型不适用于另一个人，当前还无法做到通用。“虽然这项技术还处于起步阶段，但重要的是要规范它能做什么，不能做什么，”该论文的主要作者JerryTang警告说。“如果它最终可以在未经个人许可的情况下使用，就必须有（严格的）监管程序，因为如果滥用预测框架可能会产生负面后果。”该小组已在GitHub上提供了其自定义解码代码。据悉该团队也在得克萨斯大学系统的支持下提交了与这项研究直接相关的专利申请。...PC版：https://www.cnbeta.com.tw/articles/soft/1358759.htm手机版：https://m.cnbeta.com.tw/view/1358759.htm

ChatGPT火了，OpenAI却飘了？

ChatGPT火了，OpenAI却飘了？1月中旬，《纽约时报》报道称，北密歇根大学的哲学教授AntonyAumann在世界宗教课程评分时，惊喜地读到了一篇“全班最好的论文”。学生用简洁的段落、恰当的举例和严谨的论据，探讨了罩袍禁令的道德意义。然而，在Aumann的追问之下，学生承认论文用ChatGPT写的。类似的例子还有很多。也正是随着ChatGPT在全球范围内的爆火，OpenAI也被迅速推到了舆论的“风口浪尖”。可以说，OpenAI目前处于聊天机器人军备竞赛的领头地位。单以ChatGPT为例，公开发布和微软数十亿美元的合作不仅刺激了Google和亚马逊紧急在产品线中布局人工智能，OpenAI还与贝恩合作，将机器学习引入可口可乐的运营，并计划扩展到其他企业合作伙伴。毫无疑问，OpenAI的人工智能已经成了笔大生意，但其实这与OpenAI最初的计划有些出入。“人类的未来应该由人类来决定”上周五，OpenAI首席执行官SamAltman发表了一篇博文，题为“规划AGI和超越”（PlanningforAGIandbeyond）。在文章中，他宣称OpenAI的通用人工智能（AGI）目前还远没达到要求，许多人怀疑它能否造福全人类，是否“有可能给每个人带来令人难以置信的新能力”。Altman用一种宽泛的、理想主义的语言来论证人工智能的发展不应停止，“人类的未来应该由人类来决定”，这里暗暗指向了OpenAI。几乎是在ChatGPT爆火的周期内，这篇博文和OpenAI近期的行动不断提醒着大家，OpenAI的基调和使命与它成立时相比发生了多大的变化。成立初期的OpenAI只是一个非营利组织。虽然公司一直着眼于AGI发展，但成立时他们承诺不追求利润，免费分享开发代码。而今天，这些承诺已经无处可寻。OpenAI的动力变成了速度和利润2015年，Altman、马斯克、PeterThiel、ReidHoffman宣布成立一家非营利性研究机构OpenAI。在成立声明中，OpenAI宣布，研究承诺“以最有可能造福全人类的方式推进人工智能，不受产生经济回报的限制”。该博客还称，“由于我们的研究没有财务义务，可以更好地专注于对人类的积极影响”，并鼓励所有研究人员分享“论文、博客文章或代码，我们的专利（如果有的话）将与世界共享”。8年后，我们面对的是一家既不透明也不以积极的人类影响为动力的公司。相反，正如包括马斯克在内的许多批评者所认为的那样，OpenAI的动力变成了速度和利润。同时，OpenAI正在释放技术。当然其中存在缺陷，但仍准备以牺牲人类员工为代价增加工作场所的自动化转变。例如，Google强调了自动完成代码的人工智能带来的效率提升，从而导致数千名工人被裁。OpenAI初期，媒体与从业者们都将其设想为以开放的方式进行基础人工智能研究，目的不确定。联合创始人GregBockman曾说：“我们现在的目标......是做最好的事情。这有点模糊不清”。这也无形之中促成了公司在2018年方向的转变。当时，OpenAI向资本资源寻求一些方向，“我们的主要受托责任是对人类。我们预计需要调集大量资源来完成我们的使命”。到2019年3月，OpenAI已经完全摆脱了其非盈利的头衔，建立了一个“封顶利润（cappedprofit）”部门。这使得OpenAI开始接受投资，并会为投资者提供封顶为投资100倍的利润。这项决定被视为是与Google等大科技公司的一次竞争，而不久后公司也如愿获得了微软10亿美元的投资。在宣布成立营利性公司的博文中，OpenAI继续使用相同的说法，宣称其使命是“确保通用人工智能惠及全人类”。但正如Motherboard写道，当风险投资家的主要目标是利润时，很难相信他们能拯救人类。OpenAI还值得公众的信任吗？2019年，OpenAI宣布和发布GPT-2语言模型时面临了舆论反弹。起初，该公司表示，由于“担心该技术的恶意应用”，它不会发布训练模型的源代码。虽然这在一定程度上反映了其对开发有益人工智能的承诺，但它也不是很“开放”。批评者想知道为什么OpenAI会在宣布了一个工具之后却不发布，于是不少人认为这只是宣传噱头。直到三个月后，OpenAI才在GitHub上发布了该模型，并表示这一行动是“负责任地发布人工智能的一个重要基础，特别是在强大的生成模型方面”。调查记者KarenHao在2020年期间在公司内部待了几天，根据他的说法，OpenAI的内部文化开始不再反映谨慎的、研究驱动的人工智能开发过程，而是更注重出人头地，这也导致人们指责其助长了“人工智能炒作周期”。员工现在也被要求对手头的工作保持沉默，以遵守公司新的章程。“公司公开支持的内容和闭门造车的方式之间存在着错位。随着时间的推移，它已经允许激烈的竞争和不断增加的资金压力侵蚀其透明、开放和合作的创始理想。”Hao写道。但总的来说，GPT-2的推出对OpenAI而言无疑是一件值得庆祝的事，也是公司发展至今的重要基石。“这绝对是成功故事框架的一部分”，现任政策研究主管MilesBrundage在一次会议上说，“这一部分的剧情应该是这样的：我们做了一件雄心勃勃的事情，现在有些人正在复制它，这里还应该有一些对这项创新益处的解释”。从那时起，OpenAI保留了GPT-2发布公式中的炒作部分，但取消了开放性。2020年，GPT-3正式推出，并迅速“独家”授权给微软。GPT-3的源代码仍未发布，尽管目前OpenAI已经在紧锣密鼓地筹备GPT-4了；该模型只是通过ChatGPT的API向公众开放，OpenAI还推出了一个付费层以保证对该模型的访问。这样做当然是有一些考量。首先就是钱。OpenAI在API公告博客中表示，“将技术商业化有助于支付我们正在进行的人工智能研究、安全和政策工作”。第二个原因是偏向于帮助大公司。“除了大公司之外，任何人都很难从底层技术中获益”。最后，公司还表示，通过API而不是开源发布更安全，因为该公司可以应对滥用情况。“你们一直告诉我们AGI快了，但在你们的网站上甚至没有一个一致的定义。”计算机科学家TimnitGebru在Twitter上表示。华盛顿大学语言学教授EmilyM.Bender在Twitter上说，“他们不想解决实际世界中的实际问题（这将需要让出权力）。他们想相信自己是神，不仅可以创造一个‘超级智能’，而且有恩惠，以一种与人类‘一致’的方式这样做”。这种人工智能是否会像该公司最初设想的那样，负责任地分享，公开开发，没有盈利动机？或者它是会被匆匆推出，有许多令人不安的缺陷，但主要是为OpenAI带来收益？OpenAI是否会将其科幻的未来保持在闭源状态？结合了ChatGPT之后，微软的必应聊天机器人处于“走火入魔”的状态，不断欺骗和呵斥着用户，传播错误信息。OpenAI不能可靠地检测自己的聊天机器人生成的文本，尽管教育工作者对学生使用该应用程序作弊的情况越来越关注。人们也已经轻易地对语言模型进行了越狱，无视OpenAI在其周围设置的护栏，机器人在输入随机的单词和短语时会崩溃。没有人能说清楚原因，因为OpenAI没有分享底层模型的代码，可能在某种程度上，OpenAI自己也不太可能完全理解它的工作原理。考虑到这一切，我们都应该仔细考虑OpenAI是否值得它要求公众给予的信任，而对此，OpenAI没有做出任何实质性的回应。...PC版：https://www.cnbeta.com.tw/articles/soft/1347537.htm手机版：https://m.cnbeta.com.tw/view/1347537.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人