关于Sakura模型介绍

关于Sakura模型 介绍 基于一系列开源大模型构建,在通用日文语料与轻小说/Galgame等领域的中日语料上进行继续预训练与微调,旨在提供性能接近GPT3.5且完全离线的Galgame/轻小说翻译大语言模型。 项目地址 #网站分享 from 夏风小分队 via 鸭累鸭累

相关推荐

封面图片

关于Sakura模型介绍

关于Sakura模型 介绍 基于一系列开源大模型构建,在通用日文语料与轻小说/Galgame等领域的中日语料上进行继续预训练与微调,旨在提供性能接近GPT3.5且完全离线的Galgame/轻小说翻译大语言模型。 #网站分享

封面图片

频道的资源可能有点杂,因为我想分享的东西本身就什么都沾点,想到什么就会分享什么,感兴趣的朋友可以订阅一下频道。

频道的资源可能有点杂,因为我想分享的东西本身就什么都沾点,想到什么就会分享什么,感兴趣的朋友可以订阅一下频道。 主要是频道人少看着有点荒凉(汗) 频道友链: 夏风小分队 『雨夜凉亭』ACG频道 Farr的黄油(游)仓库SLG.RPG.ADV.3D 频道标签: #模拟器 #NSFW #ASMR #网站分享 #TGbot #歌曲推荐 #技巧分享 #软件分享 #动画 #影视 #轻小说 #小说 #屏幕翻译软件 #解压缩软件 #来源 #转区工具 #虚拟光驱

封面图片

刚发布就被对标Sora,这个国产模型来头这么大?

刚发布就被对标Sora,这个国产模型来头这么大? 要不是右下角有水印,我还差点以为是 Sora 的视频又上新了。所以这次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品,而是初出茅庐的国产视频大模型 Vidu 。咱看到的那些视频,就是前几天, Vidu 在中关村论坛的人工智能主题日上公布的。它最长能生成16 秒,一句 “ 木头玩具船在地毯上航行 ” 的提示词,就能生成下面这长长的一段,一镜到底的丝滑程度,怕是路过的谋子导演看了都会点赞。Sora 号称能真实模拟物理世界的拿手戏, Vidu 照样也能实现。让它生成一段 “ 汽车加速驶过森林里乡间小路 ” 的视频,像是树林缝隙透过的阳光,后轮扬起的灰尘,都很符合咱们的日常认知。而且 Vidu 的想象力比咱人还要丰富,画室里的一艘船驶向镜头的场景,它分分钟就能给 “ 拍 ” 出来,看这效果,不知道该有多少动效师瑟瑟发抖了。甚至在某些提示词下, Vidu 的理解能力比 Sora 还强,比如 “ 镜头绕着电视旋转 ” 的提示词, Sora 压根儿就没 get 到旋转的意思,反而是 Vidu 能轻松理解。有一说一,在看完 Vidu 的这些视频后,是真觉得它是目前市面上,唯一一个能在画面效果上和 Sora 拼一拼的模型。虽然现在16 秒的 Vidu 在时长上还比不上60 秒的 Sora ,但它的进步也确实是肉眼可见的快,据极客公园消息,上个月, Vidu 在内部只能生成 8 秒的视频,上上上个月,还只能生成 4 秒的视频。反正媒体们都把 Vidu 比作是 “ Sora 级视频大模型 ” ,网友们也都在评论区喊话催他们赶紧开放内测。不过这里面更好奇的是,咱之前压根儿都没听说过 Vidu ,怎么突然平地一声雷,搞出了这么大的阵仗?我们也顺藤摸瓜找了找资料,发现 Vidu 身上,值得说道的东西还挺多,甚至仔细咂摸下,还能从 Sora 身上找出点 Vidu 的影子来( 可没说反 )。它背后是一家名叫生数科技的公司,别看这个公司才刚满一周岁,但它可是在娘胎里就开始攒劲儿了。因为它的亲妈,是清华系AI 企业瑞莱智慧,背后的研究团队,几乎全是这里面的人。而在成立生数科技之前,团队就已经把视频大模型研究得很深入了。尤其是在图像生成这块很火的扩散( Diffusion )模型,他们算是业内第一批研究这个模型的,整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。正是因为有这么好的底子,早在2022 年 9 月的时候,团队就找到了做 Vidu 的灵感,就是下面这篇论文。让 AI 帮咱解读了下,大概的思路就是,扩散模型在生成图像这块挺强,而大语言模型里用的 Transformer 有个规模( Scale )效应,参数堆得越多,性能就越好。团队就想着,能不能把这两个的优点结合一下,整个融合架构,提升图像生成的质量。于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ,还起了个名字叫 U-ViT ( Vision Transformers )。结果试下来发现这么一结合还真有用,光是相同大小的 U-ViT ,性能就比 U-Net 强了。那好嘛,既然这条路走得通,他们也顺势把技术路线定在了 U-ViT 上。然鹅……在团队悄悄酝酿 Vidu 的时候,大洋彼岸的UC 伯克利的一个研究,却让 OpenAI 的 Sora 捷足先登了。就在清华小分队提交论文的两个月后, UC 伯克利也在预印平台 ArXiv 上提交他们的论文了,一样说要把 Transformers 揉在扩散模型里面,只不过名字起的更直白了点,叫DiT ( Diffusion Transformers )。看着是不是挺眼熟,没错, OpenAI 的 Sora 模型,用的就是伯克利的 DiT 技术路线。但因为清华小分队早发了两个月,当年的计算机视觉顶会 CVPR 2023 还以“ 缺乏创新 ” 的由头,拒了 Sora 的 DiT ,收录了 U-ViT 。而且早在 2023 年年初的时候,清华小分队还用 U-ViT ,训练出了一个近 10 亿参数量的开源大模型 UniDiffuser 。算是第一个用行动证明了,融合架构也遵守 Scaling Law 这一套规则,也就是说随着计算量、参数量越来越大,模型的性能就会随指数级上升。而这个 Scaling Law ,同样也是 Sora 这么强的秘密武器。所以照这么来盘算,Sora 其实还得叫 Vidu 一声祖师爷才对……但现实世界却是, DiT 被 OpenAI 带着一路飞升。清华小分队呢,计算资源没 OpenAI 那么到位,也没 ChatGPT 这种珠玉在前,总之就是啥啥都不完善,他们只能慢慢来,先做图像、 3D 模型,等有家底儿了,再去做视频。好在他们身上还是有点实力在的,稳扎稳打慢慢也赶上来了。去年 3 月,清华小分队们成立了生数科技后,就在马不停蹄地搞自家的产品,现在图像生成和 3D 模型生成大伙儿都能免费用了。并且靠着这两个产品,刚满一周年,它就攒了好几亿的家底。像是成立 3 个月的时候,就完成了一波近亿级的天使轮投资,上个月,又完成了新一轮的数亿元融资。参与投资的,也都是智谱 AI 、 BV 百度风投等等业内大佬。反正看这波架势, Vidu 还真有可能成为国内的黑马,去对标 OpenAI 的 Sora 。不过生数科技那边,倒是觉得只把 Vidu 看作国产版的 Sora ,实在是有点缺乏想象力了,因为他们给 Vidu 的定位,可不仅仅是个视频模型,而是图、文、视频全都要,只不过现在视频暂时是重点。当然了,好听话谁都会说,能不能搞出来,咱还得实打实地看成品。已经去排了队,等拿到内测资格,再跟大伙儿同步一波…… ... PC版: 手机版:

封面图片

北大卢菁:1. 训练起来大模型和训练出有通用能力的模型完全是两码事。

北大卢菁: 1. 训练起来大模型和训练出有通用能力的模型完全是两码事。 目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。 2. 具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。 3. 如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。 因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。 4. 现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。 5. 拿Llama2 Finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。 国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。 事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。 6. 知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。 7. 数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。 8. 流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题, 比如解决人类还没解决的科学问题去扩展人类的智能; 帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一Token的效果。否则只是陪用户聊天,ROI很难做正。 9. 在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。 预计两年内不会有太好的成果,而我也非常期待被打脸。 10. 两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。 原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;

封面图片

#标签以前说过要整理标签的,一直没整理,最近看了看发的游戏的标签来整理一下,目前只整理发过的的标签还有一些我会发的标签如果有推荐

#标签 以前说过要整理标签的,一直没整理,最近看了看发的游戏的标签来整理一下,目前只整理发过的游戏的标签还有一些我会发的标签如果有推荐标签可以说一说 #安卓 #joiplay #rpg #adv #slg #act #重口 #Galgame #fps #动态 #apk #mac #ntr #krkr #pc #拔作 #正经游戏 #日语 #合集 #模拟器 #像素 #塔防 #NTL #小说 游戏合集标签: #万华镜合集 #夜羊社 #使命召唤合集#セイバーフィッシュ合集 #十二神器 #十二魔器 #柚子社 #夜勤病栋合集 #巧克力与香子兰合集 #私立さくらんぼ小学校 #私立さくらんぼ乳学校 #中二社#兰斯系列 #符文工房系列 #炎孕系列 #秋之回忆 #精灵宝可梦 #Kiss社 #ぴちぴち画廊R #black cyc #NGL FACTORY 社团 #红白磁碟机黄油合集 #紫社 #家庭菜园 #アトリエさくら #SPEED #魔界战记 #ntrman #エロエロ王国 #excess m #战乙女瓦尔基里 游戏工具类标签: zst解压教程 转区工具解压密码 2024/6/23更新 如果看到有游戏的标签是我没标过的,可以在评论说一下 鸭累鸭累: 整合的游戏群: https://t.me/yuyeweimian/11464

封面图片

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火”

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火” Anthropic发布的跑分显示,Opus在多项基准测试中得分都超过了GPT-4 和Gemini 1.0 Ultra,拥有接近人类本科生水平的知识,“在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准”。自去年3月GPT-4发布后,其一直是行业的最高标准以及追赶目标,此次Claude 3的出现,意味着其Top 1地位可能不保,不少人发出“GPT-4时代已过”的感叹。不过,天使投资人、资深人工智能专家郭涛对第一财经表示,这可能是一种过于过激的说法,GPT-4在许多应用中可能会比 Claude 3 更适合。开源大模型生态社区OpenCSG的创始人陈冉也并不认可“时代已过”,他表示,这是一个层级和另外一个层级比,毕竟GPT-4已经出来很长一段时间了。Claude 3之后,大家自然地将目光投向了OpenAI,GPT-5或许已经不远,这是“暴风雨前的宁静”。全面超越GPT-4?据Anthropic官方发布的跑分结果,Claude 3 Opus在本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K)等领域都超过了GPT-4在内的领先模型。事实真的如此吗?在Claude 3发布后,陈冉进行了试用和测评,在用他自己的一套方法测试了Opus的逻辑推理、代码等能力后,他认为,Claude 3的整体性能相比GPT-4平均提升了50%以上,包括“幻觉”、正确率和非正确率方面的表现等。从大模型胡乱回答问题的“幻觉”这一项来看,Claude3相比GPT-4要好很多,另外,在 GPT-4中,有些问题不会被回答,但在Claude 3中其回答的正确率提高了。在代码能力和推理上,陈冉测试了贪吃蛇游戏、扑克游戏等,他对第一财经表示,在这些方面GPT-4都失败了,但Claude 3 Opus做到了。在陈冉看来,此次Anthropic的发布策略很好,一次性推出三个不同性能的大模型,最出色的大模型打分都比GPT-4高,较小的模型打分也不低,而在成本上相对轻量的两个模型会比GPT-4便宜。Anthropic此次发布的Opus、Sonnet和Haiku分别针对不同的性能需求和成本效益。据官方介绍,Opus是最智能的模型,可以处理复杂的分析、具有多个步骤的较长任务以及高阶数学和编码任务;Sonnet是性能和速度的最佳组合,可实现高效、大体量的任务;Haiku是最快且最具成本效益的模型,可以执行轻量级操作,具有行业领先的速度。在成本上,能力最好的Claude 3 Opus比 GPT-4 Turbo 还要贵得多:GPT-4 Turbo 每百万token的输入/输出费用为 10/30 美元 ,而 Claude 3 Opus为 15/75 美元。不过,也有更具性价比的选择,Claude 3系列中,Sonnet的输入/输出定价是3 美元/15 美元,Haiku是0.25 美元/1.25 美元。值得一提的是,此次发布的Claude 3系列模型都支持 200k的上下文窗口, Anthropic还特别表示,在这个基础上,所有三个模型都能够接受超过 100 万tokens的输入,会提供给有特定需要的客户。作为对比,2023年更新的GPT-4窗口文本容量限制是32k,而2023年11月更新的GPT-4 turbo版能够接收128k的输入,相当于10万字的小说长度。对大模型来说,上下文窗口的文本长度越大,意味着其能更好地理解长篇文章或对话。此前,上海人工智能实验室领军科学家林达华对第一财经介绍,有了长语境交互,大模型能够读几百页的财报,将里面一些非常细致的信息精准提取出来形成摘要,或者听一场几个小时的会议转录,并将会议的关键信息摘取出来,对于大模型的落地很有用。基于Claude 3在多项能力上超越了GPT-4,行业这两天也出现了“GPT4时代已过”的声音,不过,郭涛认为,Claude 3 在某些基准测试中超过了 GPT-4,并不意味着 GPT-4 的时代已经过去,一方面基准测试并不能全面反映一个模型的全部能力,例如创造性写作、情感理解或特定领域知识方面的表现;另一方面,GPT-4在许多应用中可能会比 Claude 3 更适合,“而OpenAI也在不断研发新的技术和模型,很难说 GPT-4 的时代已经过去。”能与OpenAI一较高下吗对于Claude3这次的超越,在惊叹其表现之余,业界没有太多的意外,Anthropic过去一直被视为OpenAI最大的竞争对手之一。Anthropic的核心团队来自OpenAI,其创始人达里奥·阿莫迪(Dario Amodei)曾是OpenAI的研究副总裁,也是一位与高效利他主义社区有联系的研究员,因对OpenAI的未来方向有一些分歧而离开,并在2021年成立了Anthropic,计划以可信、安全可控的方式发展AI。Anthropic是目前除OpenAI外最被看好的大模型初创公司之一。在过去一年,Anthropic狂揽约73亿美元的投资,其中,亚马逊、Google作为最主要的投资者,分别投资了40亿美元和20亿美元,韩国电信巨头SK下注约1亿美元。就在过去一个月,Anthropic再次获得7.5亿美元的投资,来自硅谷风投机构Menlo Ventures。在未来与OpenAI的竞争中,陈冉认为Anthropic的胜面不小,一方面,其团队在算法上与OpenAI几乎没有差距,且Anthropic背后有亚马逊、Google这样的靠山,算力方面也并不缺,其次,作为背后投资者亚马逊拥有许多生态和场景,相应也能提供很多高质量的数据。陈冉认为,现在大模型竞争最关键的是数据,数据的质量越高越能训练好模型。“最终Claude有可能会赢。因为特色是合规和安全。”在Claude3发布后次日,陈冉在朋友圈表示。相比GPT-4等模型,Claude对安全的强调尤为明显。在技术文档中,Anthropic表示,Claude在训练过程中重点是有帮助、无害和诚实,Anthropic通过给模型一个想法来做到这一点,即一套伦理和行为原则,模型使用这些原则来指导其输出,以避免性别歧视、种族主义和有害的产出,以及避免帮助人类从事非法或不道德的活动。此外,Anthropic还会有安全评估,信任和安全团队会监控违反原则的有害、恶意用例的提示和输出。对于Anthropic未来是否能和 OpenAI 一较高下,郭涛认为这主要取决于几方面的因素。一方面,持续的研发和创新是保持竞争力的关键。如果 Anthropic 能够持续推出先进的技术和改进,它有可能在市场上与 OpenAI 竞争。另一方面,AI 大模型的成功不仅取决于核心技术,还取决于能够建立广泛的生态系统和合作伙伴关系,他认为,OpenAI 在这方面有着较强的影响力和网络效应。此外,如何在商业模式和市场策略上进行创新和调整,也是决定未来竞争格局的重要因素。“大家有共识目前Claude 3已经在部分能力上超越GPT-4,但具体未来能不能比GPT系列好,拭目以待。”陈冉说。Claude 3出现了,GPT-5还会远吗?在Claude 3发布后不久,英伟达高级科学家Jim Fan就在X上发文调侃,“正在等待几个小时后精心安排的GPT-5的发布”。Jim Fan随后表示,“我喜欢Claude在GPT和Gemini主导的竞技场上掀起热度。但请记住,GPT-4V这个每个人都迫切想要超越的高水位线,是在2022年完成训练的。这是暴风雨前的宁静。” ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人