总结一下我自己在做模型训练时关注到的一些很喜欢的 AI 前沿探索者,以及工具和资源。

总结一下我自己在做模型训练时关注到的一些很喜欢的AI前沿探索者,以及工具和资源。1.StableDiffusion入门推荐:腾讯技术工程《开源图像模型StableDiffusion入门手册》https://mp.weixin.qq.com/s/8czNX-pXyOeFDFhs2fo7HA推荐理由:目前总结的最好的,没有花里胡哨的内容,信息量大且系统,很难相信是直接开源的文章分享,反复读的文章之一了。2.LoRA角色模型训练:YouTube频道@BernardMaltaishttps://www.youtube.com/watch?v=N4_-fB62Hwk&t=338s推荐理由:Kohya训练脚本的作者,上下两集共90分钟讲解了Lora模型的训练,从数据集收集到处理到训练参数。建议这种教程能看开发者做的就看开发者做的,很多追热点的up经常为了图快没玩明白就出攻略,我跟着很多油管的教程操作,常被带进坑里……3.微调风格模型训练:Twitter@Nitrosockehttps://github.com/nitrosocke/dreambooth-training-guide推荐理由:Nitro训练过很多非常棒的模型,他的GitHub页面有详细讲风格模型怎么训练的教程。他自己本身是设计师出身,在去年年底微调了几个很厉害的风格模型后,现在被StabilityAI挖走了。4.ControlNet插件研发用户推荐Twitter@toyxyzhttps://toyxyz.gumroad.com/推荐理由:他做了利用Blender来辅助AI出图的免费插件,打通工作流3D辅助AI的第一人哈哈。最近他在研究的方向是ControlNet动画,总之是厉害、前沿又无私的开发者。5.AI放大工具推荐TopazGigapixel:用过最好用的,可以批量放大,基本所有图片训练前我都会用这个过一遍Upscayl:会增加细节,但是只能给常见物体增加细节Gigagan:还没出,但看效果挺值得关注#AI工作流#AI的神奇用法

相关推荐

封面图片

一个懒人 LoRA 制作指南,手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。

一个懒人LoRA制作指南,手把手教你用OneTrainer训练自己的AI绘画模型,无需深入理论,轻松掌握关键步骤。作者是用XL生成的图片,你可以用MIdjoureny生成效果比较好。我完整翻译了内容,并且重新整理了适合推特阅读的版本,或者你可以在下面看完整翻译的内容:-----------------------------1⃣LoRA模型制作教程作者作为一名LoRA模型制作的新手,通过自己的学习实践,总结了一份简明扼要的制作教程。这份教程不涉及太多理论知识,而是直奔主题,手把手教初学者如何训练自己的LoRA模型。作者坦诚分享了自己从最初尝试Embedding和LoRA时遇到的问题,以及后来找到的解决方法,为读者提供了宝贵的经验参考。所需工具介绍要制作LoRA模型,需要准备一些必要的工具。作者推荐使用自己喜欢的模型和图像生成工具,他个人使用的是StableSwarmUI和GhostXL模型。此外,还需要一个训练工具,作者选择了OneTrainer,因为有人说它比另一个常用的工具Kohya更易用。作者还提到,训练时如果需要将SDXL格式的图像转换为SD格式,需要在设置中开启分辨率覆盖选项。2⃣LoRA模型制作步骤作者将LoRA模型的制作过程分为三个主要步骤:第一步是用现有的模型生成大量高质量的图像作为训练数据;第二步是人工检查挑选图像,剔除所有质量不合格的;第三步是使用OneTrainer进行训练,调整必要的参数设置。作者还特别提到,在训练时如果需要将SDXL格式的图像转换为SD格式,一定要记得开启分辨率覆盖选项,否则训练会出问题。训练参数调整心得作为一名新手,作者在调整训练参数时主要参考了一份网上的指南。他尝试调整了Lora设置中的rank参数,将其从默认的16改为32,解决了模型训练中遇到的问题。作者分享了这份参数调整指南的链接,供其他学习者参考。3⃣作者的训练数据集分享为了帮助更多学习者,作者慷慨地分享了自己完整的训练图像数据集,其中还包含了他使用的OneTrainer配置文件。这些数据可供其他LoRA制作人下载参考和使用。数据集已经过作者的筛选,图像质量有保证。4⃣训练成果展示

封面图片

总结一下我在做模型训练时关注到的一些很喜欢的AI前沿探索者,以及工具和资源。https://m.okjike.com/originalPosts/6448eef5c567913bb586bd8d?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=

封面图片

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。#ai#

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。同时可以与现有的IPadapter以及Controlnet模型兼容。项目简介:近期,像StableDiffusion这样的文本到图像模型和DreamBooth、LoRA等个性化技术的发展,让我们能够创造出既高质量又充满创意的图像。但这些技术在生成超出它们训练时所用分辨率的图像时,往往会受到限制。为了突破这一难题,我们推出了一种新型工具——分辨率适配器(ResAdapter)。它是一种专门为扩散模型(比如StableDiffusion和个性化模型)设计的适配器,能够生成任何分辨率和长宽比的图像。与其它多分辨率生成方法不同,ResAdapter能直接生成动态分辨率的图像,而不是在后期处理中调整静态分辨率的图像。这种方法使得图像处理变得更加高效,避免了重复的去噪步骤和复杂的后期处理流程,显著缩短了处理时间。在不包含任何训练领域风格信息的情况下,ResAdapter利用广泛的分辨率先验,即使只有0.5M的容量,也能为个性化扩散模型生成不同于原训练领域的高分辨率图像,同时保持原有风格。大量实验显示,ResAdapter在提高分辨率方面与扩散模型配合得天衣无缝。此外,更多的实验表明,ResAdapter可以与ControlNet、IP-Adapter和LCM-LoRA等其他模块兼容,适用于创建不同分辨率的图像,也可以整合进如ElasticDiffusion这样的多分辨率模型中,高效生成更高清晰度的图像。项目页面:

封面图片

腾讯混元文生图大模型开源训练代码

腾讯混元文生图大模型开源训练代码今日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiTLoRA小规模数据集训练方案与可控制插件ControlNet。据腾讯混元方面介绍,这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。(证券时报)

封面图片

Lora分层控制拯救了我之前做的废模型。一两个月前在调研虚拟人的Lora模型训练,提高下同事生产图片的效率。开始给到我的训练图片

Lora分层控制拯救了我之前做的废模型。一两个月前在调研虚拟人的Lora模型训练,提高下同事生产图片的效率。开始给到我的训练图片不多,而且当时训练也没做太多处理,导致当时做的Lora出图面部经常受到训练集图片里的一些乱七八糟元素的影响,而且模型泛化也不太好,背景经常会带上训练集里的背景。后来又优化了几版,后面也学到了用Lora分层控制来结合人物Lora、画风Lora、衣服Lora。想到应该可以用这个来拯救下之前觉得废弃的模型,还加上了一些优化的正负向textinversionembeddings,效果还不错,废片率大幅度下降。(调了下prompt让人物的特征和画风与训练用的虚拟人形象保持一定区别)底模除了Chilloutmix之外,最近发现这个底模比较好用,模型页也没有明确的对商用场景的限制:https://civitai.com/models/25494/brabeautiful-realistic-asians-v4另外推荐一些优化任务的正负向的TextInversionEmbedding:pureerosface:https://civitai.com/models/4514/pure-eros-faceulzzang-6500:https://civitai.com/models/8109/ulzzang-6500-korean-doll-aestheticng_deepnegative_v1_75t:https://civitai.com/models/4629/deep-negative-v1xeasynegative:https://civitai.com/models/7808/easynegativebadhandv4:https://civitai.com/models/16993/badhandv4-animeillustdiffusion

封面图片

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型SoraOpenAI在该博客文章中表示,“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪,但在这个重要时刻,我们欢迎围绕这一问题展开激烈的讨论。”公司称,其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5,但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦(RomainHuet)上周在巴黎的一次演讲,OpenAI下一代模型可能将被命名为“GPT-Next”。不过,也有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称,新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后,OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算,OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过,《纽约时报》报道称,AI模型的训练可能需要数月甚至数年时间。训练完成后,AI公司通常还会再花几个月时间来测试该模型,并对其进行微调,之后才能供公众使用。这就意味着,OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新(SecurityUpdate)”中,OpenAI也表示,在(其下一代模型)发布前,公司将花更多时间评估新模型的功能,这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称,但外界第一时间猜测这一“前沿模型”就是GPT-5。此前,OpenAI的基础模型一直遵循着明确的命名顺序,即GPT后以递增数字的形式变化。不过,需要注意的是,本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示ChatGPTVoice时,OpenAI开发者体验主管罗曼·韦展示了一张幻灯片,揭示了未来几年人工智能模型的潜在增长趋势和命名,其中并没有GPT-5。 罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”,而“Today(今天)”就处于GPT-4时代和GPT-Next之间。这似乎意味着,OpenAI推出的下一代模型或将命名为GPT-Next,但有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。而且,罗曼·韦在演讲中也表示,在未来几个月或者说今年,人们将看到更多类型的OpenAI模型,而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称,OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4,以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称,按照过去的趋势,外界可以预期“下一代前沿模型”的反应会更加准确,因为它将接受更多数据的训练。模型训练的数据越多,该模型生成连贯、准确内容的能力就越强,从而也能拥有更好地性能。例如,有研究称GPT-3.5是在1750亿个参数上训练的,而GPT-4的训练参数则已经达到1万亿。报道称,如果OpenAI“下一代前沿模型”发布,我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型,从GPT-3.5到最新的GPT-4o,可以看到,随着模型的升级,产品的迭代已经让其变得更加智能,包括价格、响应速度、上下文长度等等。要知道,GPT-3.5只能输入和输出文本,而到GPT-4Turbo时,已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力,不仅能处理文本,还能创建图像内容,并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称,按照OpenAI基础模型这样的迭代趋势,“下一代前沿模型”或将拥有输出视频的能力。今年2月,OpenAI发布了“文生视频”模型Sora,这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时,更快地推进AI技术,同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称,预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平,这是一种能够理解、学习和执行人类可以执行的任何智力任务的AI形式。不过,专家们对AGI的可行性以及何时可能实现存在分歧。被誉为AI教父的GeoffreyHinton估计,可能需要20年才能发展出AGI。英伟达CEO黄仁勋则预测称,AI会在五年内通过人类测试,AGI将很快到来。...PC版:https://www.cnbeta.com.tw/articles/soft/1432739.htm手机版:https://m.cnbeta.com.tw/view/1432739.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人