油管上有个博主最近整了一个大活:他用匿名论坛4chan上的内容训练出一个AI,然后再用这个AI伪装成活人在论坛上不停发帖回帖,2

油管上有个博主最近整了一个大活:他用匿名论坛4chan上的内容训练出一个AI,然后再用这个AI伪装成活人在论坛上不停发帖回帖,24个小时内回复了上千条。 被人看出来是AI了吗?看出来了,但没有完全看出来 #抽屉IT

相关推荐

封面图片

她在淘宝卖AI手机壳,单品一个月2000块。

她在淘宝卖AI手机壳,单品一个月2000块。 我发现,这又是一个非常窄的领域,单价很低12-20块一个的手机壳。 每种卖的也不多,一个月100份往下浮动,加起来一款手机壁纸,月销2000块左右。 一般人是找不到的,因为即使ta搜了手机壳。 你也不知道哪一张是Ai画出来的,用的是什么咒语,复制成本自然就高了。 这就是一个很典型的入局了的人(同时熟悉AI绘画和小红书运营),才能看懂和操作的方向。 比如,我扫了一眼榜单,就能看出来,最近火的还是那几款,比如: 迪士尼公主、情侣头像、治愈系宠物、夏日水下风格。 但是说出来也没用。 因为这几周新类型的壁纸爆款有哪些?咒语去哪里找?用的什么绘画工具?怎么做手机壳?都是问题。 正是这些问题,形成了一个小门槛,堵住了大部分的人。 所以一个新行业,哪怕你不去做,偶尔也要看一看,有些新信息,只会出现在行业早期。

封面图片

如果你也想在国内做一款AI绘画工具,那么mewxai是你必须要研究的一个产品。

如果你也想在国内做一款AI绘画工具,那么mewxai是你必须要研究的一个产品。 Mewxai其实是一家我一直想聊的ai小程序,可惜没有具体的收入数据,只能简单聊聊。 (但我估计,这几个月的收入至少是有小几百万了。) 这家是目前小红书ai绘画领域最火爆的一款小程序。 除了Midjourney之外,大部分小红书ai绘画领域的创作者,基本都用过这个产品。 这个产品是2022年12月上线的,最开始的定位是古风头像 比如上传一张你女朋友的照片,可以转换成非常好看的古风头像。 后来逐渐从古风切到全品类的头像,包括情侣、穿搭、机甲、吉卜力等等。 这家能够和其他同类产品拉开一个身位,我觉得是必然的。 1、优秀的产品能力 有着巨快的功能开发速度,实话说,这家的功能上线速度是真的快。 从最开始的上新模型,到上架mj,再到ai视频、ai艺术二维码、ai光影文字。 市面上基本没有任何一家能够跟的上他们的速度。 可以说,一个小程序基本上能搞定大部分ai绘画的需求。 2、聪明的运营能力 我个人感觉mewxai内部应该有一个非常有经验的运营er。 从最开始的选择小红书进行裂变(发布笔记@他家的官方账号,赠送用户绘画点数) 到邀请好友的合伙人计划、画廊功能的审核提交,再到公众号和社群的稳定运营。 可以看出来,基本上每一步都走的非常的稳。 尤其是公众号、小红书官方号、社群,这三块的运营,虽然看起来简单,但是至少目前来看,这家是唯一没有短板的。 3、跟热点和爆款能力 实际上,目前的大部分ai绘画工具的用户都不忠诚。 大部分人都是多款ai绘画工具同时在用。 用户多数是跟着热点走的,目前最爆款的某种绘画风格,如果只有你家的产品能做出来,那么用户一定是跟着你走。 所以大部分ai绘画工具的切入点,我个人认为不应该是追求大而全,而是从热点切入,一步步的扩展。

封面图片

“弱智吧”帖子训练AI效果遥遥领先?研究团队回应

“弱智吧”帖子训练AI效果遥遥领先?研究团队回应 白岳霖是中国科学院深圳先进技术研究院三年级硕士生。他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果,超过了他们收集的其他有监督微调(SFT)指令集数据。后者来自包括知乎、百科、豆瓣、小红书等社交平台。对此,业内人士表示“看论文看到哈哈大笑”。网友纷纷跟帖评论:“这把‘弱智吧’上大分”“大智若愚”“‘弱智吧’才是人类面对AI的最后一道堡垒”。“没想到这个工作‘出圈’了,但网上存在一些错误解读,比如有人拿这个研究调侃‘知乎不如弱智吧’。”作为论文共同第一作者,白岳霖告诉《中国科学报》,这篇文章的作者来自国内外多个顶尖机构,“考虑到团队学术声誉与社会影响,这些误读有必要澄清一下”。白岳霖“上大分”的不是“弱智吧”“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容,很多内容设计有逻辑陷阱,即使对人类来说也颇具挑战。弱智吧帖子标题的风格大概如下:“一个半小时是几个半小时?”“陨石为什么总是落在陨石坑里?”“人如果只剩一个心脏还能活吗?”“蓝牙耳机坏了,去医院挂耳科还是牙科?”“弱智吧”截图还有一些幽默发言角度清奇:“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“救火是在灭火”“指南针主要是指北”“小明打开水龙头是因为开水龙头烫到了小明的手”……正因为“弱智吧”中许多提问脑洞大开,这些问题常被用来测试大模型的能力。这样的语料数据,自然也逃不过研究团队的“法眼”。此外,《中国科学报》了解到,这支研究团队的平均年龄只有20多岁,大多为在读硕士生和博士生。他们经常光顾知乎、豆瓣、小红书等平台,当然也少不了“弱智吧”。当他们决定“手搓”一个高质量的中文指令微调数据集时,“弱智吧”相关语料自然地成为他们的一个选择。不过,并不像传说的那样“弱智吧8项测试第一,远超知乎豆瓣小红书”“竟成最佳中文AI训练数据”。实际上,在Yi-34B大模型上表现上佳的,不单纯是“弱智吧”。具体来说,弱智吧只贡献了个标题。论文提到,研究团队收集了“弱智吧”上点赞数最多的500个帖子,并使用这些帖子的标题作为指令,使用GPT-4生成相应的回复。而对于由GPT-4生成的回复,研究团队还进行了人工审核、优化与筛选,并最终获得了240对(指令,响应)样本。使用这240对样本训练过的Yi-34B大模型,在Belle-Eval测试集上录得高分。Ruozhiba来源的数据集训练效果遥遥领先于其他数据源。图片截自论文要指出的是,除“弱智吧”之外,知乎、小红书、豆瓣、百科等来源的数据,研究团队并没有借助GPT-4去生成回答,而是采用严格的数据过滤,最大程度保留网络中人类撰写的高质量内容。以拥有大量高质量用户生产内容的知乎为例,研究团队设置了“高赞回答”等筛选条件,经内容过滤、评分后,即采用得分较高的原内容。相形之下,研究团队仅使用弱智吧帖子的标题作为训练大模型的指令,完全没有包含网友的回帖和评论,而是使用GPT4辅助人工构造了回复答案。因此,面对网上“‘弱智吧’上大分”之类的言论,白岳霖回应说:“网络上的宣传过分夸大事实。”“许多读者误以为我们使用‘弱智吧’网友的评论训练大模型就可以达到很好的效果,事实上,我们仅保留了弱智吧帖子的标题。”白岳霖说:“实验结果并不能代表弱智吧,因为数据实际上相当于多方(网友、作者们和大模型系统)协同构造的。”对各平台来源的数据“跑分”并非研究本意研究团队为何仅针对“弱智吧”作文章?“因为我们的目标是构建符合大模型指令微调质量需求的数据,而贴吧中网友的评论通常不适合直接作为微调数据,因此我们并没有将‘弱智吧’网友的评论纳入我们的数据中。”白岳霖告诉《中国科学报》。论文通讯作者、加拿大滑铁卢大学博士生张舸进一步向《中国科学报》解释:“‘弱智吧’中网友们绞尽脑汁想出来的‘弱智问题’,的确为大模型提供了角度清奇的高质量指令。但是帖子的回答,却有很多冒犯性表述甚至事实性错误,许多回答就是抖机灵、玩梗的,而GPT-4的回答基本上都‘很正经’,经过人工筛选基本上能得到较为可靠的回答。”由于对“弱智吧”数据的“区别对待”在传播中很难被关注到,吃瓜群众很容易就对这项工作产生了误读,认为仅使用“弱智吧”的内容就能将大模型训练出远超其他平台的效果。白岳霖进一步谈到:“我们的实验结果也不能完全代表互联网中的各个平台,任何关于平台对立的情绪都不是我们想要探讨或者希望看到的。”不过,也正是研究团队对“弱智吧”数据的特殊操作,在论文内容发酵后引发了相关人士对实验结果的质疑。有质疑者提出:来自知乎、豆瓣等平台的其它子数据集采样了原内容和网友评论,只有“弱智吧”的子数据集完全不包括网友的评论、而是采用了GPT-4合成的回答这样的回答明显更完善、准确、多样,且最终来评分的居然还是GPT-4。“既当运动员又当裁判员,Evaluation bias(评估偏见)不会爆炸吗?用这种操作误导公众、获取流量,是不是有点过于不严谨了?”对于这一诘问,白岳霖也给出了正面回应。“获取流量并不是我们的初衷,我们也无意哗众取宠,更没有计划或安排任何宣传内容,我们的初衷只是想默默为中文NLP(自然语言处理)社区贡献些高质量数据集;对平台‘跑分’的实验本意,是想观察各平台数据对于测试集中各任务都有哪些影响。”白岳霖解释说。至于为何只有“弱智吧”子集不包括网友评论,正如前述所提到的,也是出于“弱智吧”部分网友评论经判断达不到训练语言模型的回答质量标准,因此决定重新构造回答。而使用GPT-4辅助构造回答,则主要是为了尽可能减少人力投入。白岳霖同时表示,已经注意到有关评估偏见的问题,他们计划在下一版论文更新中“补充人工评估实验”。张舸告诉《中国科学报》,“手搓”一个通用的、高质量的中文指令微调数据集,需要做大量筛选、检查和调优的工作,“是个体力活儿”,能寻求机器帮忙的当然不会放过。一切为了“更适合中国宝宝的AI”张舸是这项研究的核心人物,他也是COIG(Chinese Open Instruction Generalist,中文开源指令数据集)系列工作的发起人之一。张舸谈及发起这项研究的初衷,他告诉《中国科学报》,国内在有关中文指令微调数据集方面,目前还没有质量特别好的开源项目,个别项目也只是“勉强能用”,因此萌生了给业界提供一个完全开源的、包含中文社交媒体数据等在内各种来源的、可以直接微调大模型的数据集的想法。通过筛选收集,构建出具有挑战性的、真实的中文语料互动数据,对于训练和评估大语言模型理解和执行中文指令的能力而言,无疑是极具价值的。最直接地,将有利于减少大模型在回答中出现“幻觉”(模型在输出文本时出现的一些并不符合事实或常识的内容)。在这项工作中,作者团队构建了一个包含4万多条高质量数据的中文指令微调数据集,并将其开源给研究机构、企业等各方,为中文NLP社区提供了宝贵的资源。然而,这项工作繁琐复杂,不仅要去各个平台“爬取”高质量的内容数据,还需要... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人