Am You The Asshole? - 用有偏差的输入数据集训练 AI

AmYouTheAsshole?-用有偏差的输入数据集训练AIhttps://areyoutheasshole.com/用reddit的r/AmITheAsshole（我是个混蛋吗？）板块的问答训练出来的三个AI，分别会回答“你是（混蛋）”、“你不是”和混合结果。该项目被用来展示有偏差的数据集对AI决策能力的影响。该项目需要资金驱动（因为显卡算力不是免费的），捐助$2可以为所有人提供100次使用权限。

在Telegram中查看

相关推荐

巴西禁止 Meta 用该国用户数据训练 AI 模型

巴西禁止Meta用该国用户数据训练AI模型巴西国家数据保护机构周二裁定，Meta须停止使用该国用户数据训练其AI模型。Meta此前更新隐私政策，声明将使用用户公开发表的帖子训练AI模型。巴西监管机构担心儿童与朋友和家人分享的个人数据可能会被以无法预料的方法对他们造成伤害。里约热内卢智库InstituteofTechnologyandSociety的RonaldoLemos认为，巴西此举可能会鼓励其它科技公司在使用个人数据方面维持不透明的状态，因为Meta是唯一一家提前通知使用个人数据训练AI的科技巨头，结果却因此受到严厉惩罚。Meta收到通知后需要在五天内证明合规，否则每天面临5万雷亚尔的罚款。Meta发言人对巴西的裁决表达了失望。来源，频道：@kejiqu群组：@kejiquchat

MovieLLM: 用AI合成电影数据用来训练AI对长视频理解

MovieLLM:用AI合成电影数据用来训练AI对长视频理解MovieLLM是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架，能够从简单的文本提示中生成高质量、电影级别的视频数据。MovieLLM能仅仅通过一个词或一个句子就能创作出一部完整的电影。MovieLLM旨在为长视频创建合成的高质量数据。这个框架结合了GPT-4和文本到图像的模型，以生成详细的剧本和相应的视觉内容。通俗来讲就是：MovieLLM通过合成电影数据为人工智能模型提供训练材料，使它们能够更好地理解和生成长视频内容。#框架

利用 Meta 的 ImageBind 训练出来的多模态模型。

利用Meta的ImageBind训练出来的多模态模型。只使用了文本-图像数据进行微调就获得了很好的多模态效果。YixuanSu: WearesuperexcitedtosharePandaGPT,thefirstfoundationmodelcapableofinstruction-followingdataacrosssixmodalities,withouttheneedofexplicitsupervision.[1/n]ProjectPage:Demo:Code:

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃现在，随着越来越多的人使用AI来制作和发布内容，一个明显的问题出现了：当AI生成的内容在互联网上激增并且AI模型开始用其进行训练，而不是使用主要人类生成的内容时，会发生什么？来自英国和加拿大的一组研究人员已经研究了这个问题，并且最近在开放获取期刊arXiv上发表了一篇关于他们工作的论文。他们的发现令当前的生成式AI技术及其未来令人担忧：“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”研究人员专门研究了文本到文本和图像到图像AI生成模型的概率分布，得出结论：“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程，随着时间的推移，模型会忘记真正的底层数据分布……这个过程是不可避免的，即使对于具有近乎理想的长期学习条件的情况也是如此。”“随着时间的推移，生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实，”该论文的主要作者之一IliaShumailov在给VentureBeat的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快：模型可以迅速忘记他们最初从中学习的大部分原始数据。”换句话说：当AI训练模型接触到更多AI生成的数据时，它的性能会随着时间的推移而变差，在其生成的响应和内容中产生更多错误，并在其响应中产生更少的非错误多样性。——额外编辑：研究人员同样担忧，目前互联网上AI生成内容正在迅速增加，训练下一代ai的数据正在被迅速污染。

可令 AI 模型“输入狗生成猫”，黑客展示为训练数据集“下毒”的 Nightshade 工具

可令AI模型“输入狗生成猫”，黑客展示为训练数据集“下毒”的Nightshade工具日前有黑客展示了一款名为Nightshade的工具，该工具可在不破坏观感的情况下轻微修改图片，若有AI模型在训练时使用了这些被“下毒”的图片，模型生图结果便会被毁坏。据悉，Nightshade工具是一种专从提示词入手的攻击手法，号称“手法相对目前‘在提示词中加入触发字’的后门攻击法更简单”，不需介入模型的训练及部署等过程。Nightshade工具的作用，主要是轻微修改图片内容，当这些被修改的图片内容成为 AI模型训练数据后，整个 AI 模型就有可能被彻底破坏。黑客选择了StabilityAI的StableDiffusionV2、SDXL及DeepFloyd验证攻击效果。测试显示，只需要少量“下毒样本”就扰乱AI模型的文生图模型。黑客使用不到100张经过修改的“狗的照片”，便污染了SDXL模型已经养成的“狗”概念，使该模型在接受外界输入“生成狗的图片”提示后，反而生成了猫的图片。此外，黑客声称经过Nightshade工具“下毒”的图片难以辨别，因为该工具主要影响训练数据集的“特征空间”。来源：https://www.ithome.com/0/727/542.htm投稿：@ZaiHuaBot频道：@TestFlightCN

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成，其中包含大量教科书、博客文章、故事小说、WikiHow教程，共计250亿个Token。HuggingFace表示，这次开源的数据集为0.1版本，未来团队还将持续更新该数据集，推进业界 AI 训练发展。项目地址：消息来源：线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人