昨天答应的 ComfyUI 人像发色更换保姆级教程视频来了。#ai#教程# #comfyui#

昨天答应的ComfyUI人像发色更换保姆级教程视频来了。#ai##教程##comfyui#我会先大概讲一下原理,然后再讲对应节点的作用和参数。最后会发散一下其他的方式,比如更换美瞳以及换衣服。工作流原理:主要用到了SD中局部重绘的原理,关键在于如何选中我们需要选中的区域,这里的突破主要是YoloWorld这图像分割项目以及ZHO的Comfyui节点。这个项目可以精准的识别和分割人物的不同区域的位置,我们根据不同区域的组合就可以选到需要的区域去重绘。节点作用及参数:YoloWorldModelLoader和ESAMModelLoader:加载模型用的用默认设置就行。YoloWorldESAM:输入框输入需要分割区域的单词,Confidence_threshold需要分割的区域越精细数值越小,反之越大。遮罩相减:取两个链接遮罩的交集。遮罩扩展:扩大遮罩选取范围,倒角是让选区更加平滑。采样器:降噪幅度,修改的内容与原图越不同重绘幅度需要越大。

相关推荐

封面图片

ML Blocks:无代码AI图像生成和分析工作流平台

MLBlocks:无代码AI图像生成和分析工作流平台它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。该工具主要解决在电商领域遇到的批量处理图片问题。MLBlocks允许用户创建可以处理多步骤图像生成或分析管道的自定义图像处理工作流,使用基于图的工作流。用户只需按顺序连接几个块,如去背景->裁剪->AI上采样,就可以在几分钟内得到完整的图像处理工作流。主要功能:生成图像:使用StableDiffusion等AI模型生成或绘制图像。编辑图像:提供编辑功能,如裁剪、调整大小、重新着色等,来修改图像。分析图像:利用检测或分割模型从图像中提取数据。实际应用示例:基于提示模糊图像特定区域:传统方法需要使用DINO模型生成提示中提到的对象周围的边界框,然后使用像SegmentAnything这样的分割模型生成这些区域的遮罩,最后使用Pillow或OpenCV库编写模糊功能来模糊遮罩区域。而使用MLBlocks,用户只需将分割、遮罩和模糊块连接起来,就能在2分钟内完成工作流程。你还可以自动生成博客帖子或推文的横幅图像、根据提示移除图像中的对象、去除背景并用AI创建新背景等多种工作流程。

封面图片

答应大家的AI歌手教程来了,手把手教你训练你自己的AI歌手,主要分为使用模型和训练模型两部分,这里是第一部分如何使用模型生成音乐

答应大家的AI歌手教程来了,手把手教你训练你自己的AI歌手,主要分为使用模型和训练模型两部分,这里是第一部分如何使用模型生成音乐的部分,主要介绍了音源的处理,模型的使用和后期音轨的合成。看在藏师傅生病肝教程的份上希望各位多多支持,下面是具体步骤,图片顺序跟文字顺序对应详细教程和文件下载可以看这里:https://mp.weixin.qq.com/s/bXD1u6ysYkTEamt-PYI1RA要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去,所以我们需要先对你垫进去的声音进行处理。首先要安装UVR_v5.5.0,完成后我们需要给UVR增加一个模型解压UVR5模型文件将里面的两个文件夹粘贴到安装目录下的UltimateVocalRemovermodels就行。在处理之前你需要把你声音的格式转换成WAV格式,因为So-VITS-SVC4.0只认WAV格式的音频文件,现在处理了后面会省事点。可以用这个工具处理:https://www.aconvert.com/cn/audio/mp4-to-wav/处理完音频文件后我们就要开始利用UVR去掉背景音了,一共需要过两次,每次的设置都是不同的,下面两张图分别是两次的参数。接下来我们就要运行整合包的WebUI来推理声音了,如果你用的其他人的模型的话你需要先把模型文件放进整合包对应的文件夹下面:首先是模型文件夹下面后缀为pth和pt的两个文件放到整合包的logs44k文件夹下。之后是模型文件里那个叫config.json的json文件,放到整合包的configs文件夹下面。接下来我们就可以运行整合包的WebUI了,打开整合包根目录下的【启动webui.bat】这个文件他会自动运行并打开WebUI的网页,经常玩StableDiffusion的朋友肯定对这个操作不陌生。下面就是WebUI的界面我们使用模型的时候主要用的是推理这个功能。之后就是选择我们的模型,如果你刚才已经把模型放到合适的位置的话你现在应该能在下图的两个位置选择到你的模型和配置文件,如果有报错会在输出信息的位置显示。选择完模型之后我们需要点击加载模型,等待一段时间Loading之后模型会加载完成。OutputMessage这里会输出加载的结果。之后就是上传我们处理好的需要垫的音频文件了,把文件拖动到红框位置就行。

封面图片

AI读心术来了,准确率高达82%?论文已刊登在Nature

AI读心术来了,准确率高达82%?论文已刊登在Nature根据实验结果显示,GPT人工智能大模型感知语音的准确率可高达82%,令人惊叹。01.“读心术”的探索事实上,科技圈对“读心术”的探索并非近日才展开。过去,马斯克建立的神经科技公司Neuralink也一直在寻找高效实现脑机接口的方法,其还与加州大学戴维斯分校合作,实现用猴子大脑控制电脑的实验,旨在最终想要将芯片植入大脑,用“细丝”探测神经元活动。不过,值得注意的是,Neuralink的这种方案属于侵入式的。所谓侵入式,是指将脑机接口直接植入到大脑的灰质,因而所获取的神经信号的质量比较高。这种方式的缺点是容易引发免疫反应和愈伤组织(疤),进而导致信号质量的衰退甚至消失。与之相对应的是非侵入式脑机接口,它是一种能够在人脑与外部设备之间直接建立通讯的人机交互技术,具有操作便捷、风险性小等优点。以往,行业内可以通过功能性磁共振成像(FMRI)捕捉人类大脑活动的粗糙、彩色快照。虽然这种特殊类型的磁共振成像已经改变了认知神经科学,但是它始终不是一台读心机:神经科学家无法通过大脑扫描来判断某人在扫描仪中看到、听到或思考的内容。此后,神经科学家一直希望可以使用fMRI等非侵入性技术来破译人类大脑内部的声音,而无需手术。如今,随着《Semanticreconstructionofcontinuouslanguagefromnon-invasivebrainrecordings》论文的发布,该论文的主要作者JerryTang通过将fMRI检测神经活动的能力与人工智能语言模型的预测能力相结合,可以以惊人的准确度重现人们在扫描仪中听到或想象的故事。解码器甚至可以猜出某人在扫描仪中观看短片背后的故事,尽管准确性较低,但也实现了一大进步。这也意味着,参与者不需要植入任何外界设备,AI系统就能解码大脑中的想法。02.没说过的话,AI是怎么知道的?自ChatGPT、GPT-4发布的几个月间,我们见证了大模型根据提示词不断输出内容的过程。要问AI系统如何了解人类大脑中的想法,在论文中,研究人员透露,首先让参与者听新故事,然后功能性磁共振成像(FMRI)可以呈现出参与者大脑的活动状态。进而,基于最新开发的语义解码器将这些状态,生成相应的单词序列,并通过将用户大脑反应的预测与实际记录的大脑反应进行比较,最终预测每个候选单词序列与实际单词序列的相似程度,看看准确率如何,是否能“读心”。具体来看,为了收集大脑活动数据,研究人员让研究对象在fMRI扫描仪内听一些音频故事。与此同时,通过fMRI扫描仪观察他们的大脑在听这些话时反应情况。如图a所示,3名受试者在听16小时的叙述性的故事时,AI系统记录了MRI(磁共振成像)的反应。然后,MRI数据被发送到计算机系统中。在这个过程中,研究人员使用了基于贝叶斯统计的解码框架。大型语言模型GPT-1在系统的自然语言处理部分提供了帮助。由于这个神经语言模型是在大量的自然英语单词序列数据集上进行训练的,它擅长预测最可能的单词。接下来,研究人员在这个数据集上训练编码模型。在初始训练时,如b图所示,当受试者在试听此前没有用于模型训练的测试故事时,大脑会做出不同的反应。进而,语义解码器可以根据参与者的大脑活动生成词汇序列,语言模型(LM)为每个序列提出连续性,而编码模型对每个连续性下记录的大脑反应的可能性进行评分。简单来看,语义解码器学会了将特定的大脑活动与特定的单词流相匹配。然后根据匹配出来的单词流,试图重新输出这些故事。不过,语义解码器主要捕捉了参与者想法中的要点,并不是一字一句的完整思想内容。如参与者听到的是,“我从气垫上站起来,把脸贴在卧室窗户的玻璃上,希望看到有一双眼睛盯着我,但却发现只有一片黑暗。”但是想法却是,“我继续走到窗前,打开窗户,我什么也没看见,再抬头看,什么也没看见。”又比如说参与者听到的是,“我还没有驾照”,语义解码器解码之后的版本可能是,“她还没有学会开车”。语义解码器捕捉参与者的想法通过这种方法,在一系列语言相似性指标下,语义解码器对测试故事的预测与实际刺激词的相似度明显高于预期。准确率也高达82%。该论文的另一位作者AlexanderHuth表示,他们对系统出色的表现感到惊讶。他们发现解码后的单词序列通常能够准确地捕捉到单词和短语。他们还发现他们可以从大脑的不同区域分别提取连续的语言信息。除此之外,为了测试解码的文本是否准确捕捉到故事的含义,研究人员还进行了一项行为实验,通过向只阅读解码后单词的受试者提问一系列问题。受试者在没有看过视频的情况下,能够正确回答超过一半的问题。03.语义解码器刚起步,道阻且长不过,当前,该语义解码器还无法在实验室以外的地方使用,因为它依赖于fMRI设备。对于未来的工作,研究人员希望自然语言神经网络的快速进展能够带来更好的准确性。到目前为止,他们发现较大、现代的语言模型至少在编码部分工作得更好。他们还希望能够使用更大的数据集,比如每个受试者100或200小时的数据。虽然这种非侵入性的方式,可能会对医学维度的研究以及患者有极大的好处,使其可以与他人进行可理解的交流,但是也存在隐私、伦理审查、不平等和歧视、滥用和侵犯人权等诸多问题,所以想要现实中应用也大有难度。与此同时,研究人员表明,语义解码器仅在接受过训练的人身上以及与其合作下才能正常工作,因为针对一个人训练的模型不适用于另一个人,当前还无法做到通用。“虽然这项技术还处于起步阶段,但重要的是要规范它能做什么,不能做什么,”该论文的主要作者JerryTang警告说。“如果它最终可以在未经个人许可的情况下使用,就必须有(严格的)监管程序,因为如果滥用预测框架可能会产生负面后果。”该小组已在GitHub上提供了其自定义解码代码。据悉该团队也在得克萨斯大学系统的支持下提交了与这项研究直接相关的专利申请。...PC版:https://www.cnbeta.com.tw/articles/soft/1358759.htm手机版:https://m.cnbeta.com.tw/view/1358759.htm

封面图片

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125PetaFLOPS算力基于5nm的4万亿晶体管WSE-3专为训练业界最大的AI模型而构建,为CerebrasCS-3AI超级计算机提供动力,通过900,000个AI优化计算核心提供125petaflops的峰值AI性能。一颗惊人的芯片,约等于62颗H100CerebrasSystems表示,这款新器件使用台积电的5nm工艺打造,包含4万亿个晶体管;90万个AI核心;44GB片上SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为125FP16PetaFLOPS。Ceberas的WSE-3将用于训练一些业界最大的人工智能模型,能训练多达24万亿个参数的AI模型;其打造的集群规模高达2048个CS-3系统。值得一提的是,当Cerebras提到内存时,他们谈论的更多是SRAM,而不是片外HBM3E或DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。为了展示这颗新芯片的规模,Cerebras还将其与英伟达的H100进行了对比。除了将这款巨型芯片推向市场之外,Cerebras取得成功的原因之一是它所做的事情与NVIDIA不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而Cerebras将晶圆保留在一起。在当今的集群中,可能有数以万计的GPU或AI加速器来处理一个问题,将芯片数量减少50倍以上可以降低互连和网络成本以及功耗。在具有Infiniband、以太网、PCIe和NVLink交换机的NVIDIAGPU集群中,大量的电力和成本花费在重新链接芯片上。Cerebras通过将整个芯片保持在一起来解决这个问题。凭借WSE-3,Cerebras可以继续生产世界上最大的单芯片。它呈正方形,边长为21.5厘米,几乎使用整个300毫米硅片来制造一个芯片。你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于2019年首次亮相,采用台积电的16纳米技术制造。对于2021年推出的WSE-2,Cerebras转而采用台积电的7纳米工艺。WSE-3采用这家代工巨头的5纳米技术制造。自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。需要注意的一点是,Cerebras使用片上内存,而不是NVIDIA的封装内存,因此我们不会以H100上的80GBHBM3为例。最新的Cerebras软件框架为PyTorch2.0和最新的AI模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8倍。您可能已经看到Cerebras表示其平台比NVIDIA的平台更易于使用。造成这种情况的一个重要原因是Cerebras存储权重和激活的方式,并且它不必扩展到系统中的多个GPU,然后扩展到集群中的多个GPU服务器。除了代码更改很容易之外,Cerebras表示它的训练速度比MetaGPU集群更快。当然,目前这似乎是理论上的CerebrasCS-3集群,因为我们没有听说有任何2048个CS-3集群启动并运行,而Meta已经有了AIGPU集群。总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于NVIDIA的集群。CerebrasSystems进一步指出,由于每个组件都针对AI工作进行了优化,CS-3比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然GPU功耗逐代翻倍,但CS-3的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU相比,CS-3需要的代码减少97%,并且能够在纯数据并行模式下训练从1B到24T参数的模型。GPT-3大小的模型的标准实现在Cerebras上只需要565行代码——这同样也是行业记录。一个庞大的系统,冷却超乎想象CerebrasCS-3是第三代WaferScale系统。其顶部具有MTP/MPO光纤连接,以及用于冷却的电源、风扇和冗余泵。CerebrasSystems在新闻稿中指出,如上所述,CS-3拥有高达1.2PB的巨大内存系统,旨在训练比GPT-4和Gemini大10倍的下一代前沿模型。24万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在CS-3上训练一万亿参数模型就像在GPU上训练十亿参数模型一样简单。CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调70B模型,而使用2048个系统进行全面调整,Llama70B可以在一天内从头开始训练——这对于生成AI来说是前所未有的壮举。Cerebras需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。该系统及其新芯片在相同的功耗和价格下实现了大约2倍的性能飞跃。从第一代的16纳米到如今的5纳米,Cerebras从每个工艺步骤中都获得了巨大的优势。与具有八个NVIDIAH100GPU以及内部NVSwitch和PCIe交换机的NVIDIADGXH100系统相比,它只是一个更大的构建块。这是带有Supermicro1U服务器的CS-3。这是另一个使用Supermciro1U服务器拍摄的Cerebras集群。Cerebras通常使用AMDEPYC来获得更高的核心数量,这可能是因为Cerebras团队的很多成员来自被AMD收购的SeaMicro。我们在这次迭代中注意到的一点是,Cerebras也有HPE服务器的解决方案。这有点奇怪,因为一般来说,SupermicroBigTwin比HPE的2U4节点产品领先一步。看待CerebrasCS-2/CS-3的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的x86计算上,以提供优化的人工智能芯片。由于这是一个液冷数据中心,因此风冷HPE服务器配备了来自Legrand子品牌ColdLogik的后门热交换器设置。这是Cerebras如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。这一代的一大特点是更大的集群,多达2048个CS-3,可实现高达256exaFLOPs的AI计算。12PB内存是一款高端超大规模SKU,专为快速训练GPT-5尺寸模型而设计。Cerebras还可以缩小到类似于单个CS-2的规模,并支持服务器和网络。部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。因此,Cerebras集群可以训练比以前更大的模型。关于整个系统,在SC22的时候,该公司就曾基于CerebrasCS-2的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(EngineBlock)。在Cerebras看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。这是另一边的样子。当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是2kW/U服务器或可能具有8x800W或8x1kW部件的加速器托盘。对于WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。最上面一排木板非常密集。展位上的Cerebras代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。CerebrasCondorGalaxy的更新在去年七月,Cerebras宣布其CS-2系统取得重大胜利。它拥有一台价值1亿美元的人工智能超级计算机,正在与阿布扎比的G42一起使用。这里的关键是,这不仅仅是一个IT合作伙伴,也是一个客户。当前的第一阶段有32个CS-2和超过550个AMDEPYC7003“Milan”CPU(注:Cerebras首席执行官Andrew...PC版:https://www.cnbeta.com.tw/articles/soft/1423657.htm手机版:https://m.cnbeta.com.tw/view/1423657.htm

封面图片

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100

你见过晶圆大小的芯片吗?这家AI独角兽推新品对标英伟达H100据悉,该款芯片将4万亿个晶体管组织在90万个核心中。该芯片针对人工智能训练的工作负载进行了优化。Cerebras公司声称,配备了2048个WSE-3芯片的服务器集群可以在一天内训练出市场上最先进的开源语言模型之一Llama270B。替代英伟达Cerebras是一家美国人工智能芯片的独角兽企业,它背后的投资团队也都实力够硬。最新一笔融资是在2021年由AlphaWaveVenture和阿布扎比增长基金领投,融资金额2.5亿美元,其他的投资人士包括:OpenAI创始人山姆·奥特曼、AMD前首席技术官FredWeber等。2021年,Cerebras公司首次亮相了WSE-2芯片,集成了1.2万亿个晶体管、40万个核心。在同行都在将晶圆分割成数百颗独立芯片之时,Cerebras公司则是选择将整个晶圆做成一颗芯片。而最新发布的WSE-3则是从WSE-2改进而来的。它较WES-2又增加了1.4万亿个晶体管,并拥有90万个计算核心、44GB的板载SRAM内存。强化部分是通过从7纳米制造工艺更新到5纳米节点所实现的。据该公司称,WSE-3在人工智能工作负载方面的性能是其前身的两倍,它的峰值速度可以达到每秒125千万亿次计算。Cerebras还将WSE-3定位为比英伟达显卡更为高效的替代品。根据Cerebras官网的数据,该芯片4万亿个晶体管数完全碾压了英伟达H100GPU的800亿个;核处理器数是单个英伟达H100GPU的52倍;片上存储量是H100的880倍。WSE-3芯片为Cerebras公司的CS-3超级计算机提供动力,CS-3可用于训练具有多达24万亿个参数的人工智能模型,对比由WSE-2和其他常规人工智能处理器驱动的超级计算机,这一数据是个重大飞跃。加速数据传输虽说将晶圆大小的芯片和单个英伟达H100GPU相比较并不公平,不过若从数据传输速度的角度来看,不将晶圆切割成单独的芯片确实有它的优势。根据Cerebras公司的说法,使用单一的大型处理器可以提高人工智能训练工作流程的效率。当WSE-3上的4万亿个晶体管在晶圆上互连时,将会大大加快生成式人工智能的处理时间。人工智能模型就是相对简单的代码片段的集合,这些代码片段被称为人工神经元。这些神经元被重新组织成集合(称为层)。当人工智能模型接收到一个新任务时,它的每一层都会执行任务的一部分,然后将其结果与其他层生成的数据结合起来。由于神经网络太大,无法在单个GPU上运行,因此,这些层需要分布在数百个以上的GPU上,通过频繁地交换数据来协调它们的工作。基于神经网络架构的具体特性,只有获得前一层的全部或部分激活数据,才能在开始分析数据,并提供给下一层。也就意味着,如果这两层的数据运行在不同的GPU上,信息在它们之间传输可能需要很长时间。芯片之间的物理距离越大,数据从一个GPU转移到另一个GPU所需的时间就越长,这会减慢处理速度。而Cerebras的WSE-3有望缩短这一处理时间。如果一个人工智能模型的所有层都在一个处理器上运行,那么数据只需要从芯片的一个角落传输到另一个角落,而不是在两个显卡之间传输。减少数据必须覆盖的距离可以减少传输时间,从而加快处理速度。该公司指出,在如今的服务器集群中,数以万计的GPU被用来处理一个问题,而若是将芯片数量减少50倍以上,就可以降低互连成本以及功效,同时或许也可以解决消耗大量电力的问题。Cerebras联合创始人兼CEOAndrewFeldman称,“当我们八年前开始这一旅程时,每个人都说晶圆级处理器是白日梦…WSE-3是世界上最快的人工智能芯片,专为最新的尖端人工智能工作而打造。”对于新推出地WSE-3芯片,分析公司Intersect360Research首席执行官AddisonSnell认为,Cerebras的WSE-3人工智能芯片和CS-3系统可以使部分高性能计算用户受益。他指出,“该芯片在相同的成本和功率下将性能提高了一倍。”不过,TiriasResearch创始人JimMcGregor则较为现实地指出,尽管这家初创公司增长迅速,并且有能力提高其平台的可扩展性,但与占主导地位的人工智能供应商英伟达相比,它仍然是一家规模较小的公司。他还指出,Cerebras专注于人工智能的一个方面,那就是训练,不过训练只是大型语言模型市场的一个利基市场。而英伟达提供了许多其他方面产品。...PC版:https://www.cnbeta.com.tw/articles/soft/1423681.htm手机版:https://m.cnbeta.com.tw/view/1423681.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人