最近在做的项目几乎是清一色的 comfyui + animatediff + lcm,忙里偷闲和 @Simon阿文 做了一个《低

最近在做的项目几乎是清一色的comfyui+animatediff+lcm,忙里偷闲和@Simon阿文做了一个《低俗小说》里舞蹈的转绘版本,阿文的版本在这里(https://m.okjike.com/originalPosts/659ba958c7c69d5a9fe3f541?s=ewoidSI6ICI2MzkwNTUwZTljMzFjOGZjMWM3NzIyMzIiCn0=)我做的是女生的部分。人物、麦穗和天空分为三层控制生成,达成了不同层有不同自由程度(不同闪烁程度X)的控制效果。工作流参考的朋友JerryDavos的工作流,他将AI动画的工作流切成了controlnet提取、lcm生成、refine、facefix四步,8G显存的显卡都可以跑非常菩萨,欢迎通过他的patreon支持他:https://www.patreon.com/posts/update-v2-1-lcm-95056616

相关推荐

封面图片

Andrej Karpathy 提出了一个工作流希望自动将长视频内容转换为带对应示例的播客文章。现在虽然也有一些类似工具但是都做

AndrejKarpathy提出了一个工作流希望自动将长视频内容转换为带对应示例的播客文章。现在虽然也有一些类似工具但是都做的不好。同时他还把前几天自己的视频教程转成了文字内容,觉得视频太浪费时间的可以看文本。AK设想的完整工作流:一个有趣的大语言模型(LargeLanguageModel)挑战是:将我的2小时13分钟的分词器视频转换成一本书的章节(或者博客文章)形式,专门讨论分词。具体步骤如下:为视频添加字幕或解说文字。将视频切割成若干带有配套图片和文字的段落。利用大语言模型的提示工程技术,逐段进行翻译。将结果输出为网页形式,其中包含指向原始视频各部分的链接。从更广泛的角度来看,这样的工作流程可以应用于任何视频输入,自动生成各种教程的“配套指南”,使其格式更加便于阅读、浏览和搜索。这听起来是可行的,但也颇具挑战。LLMTokenization课程文字版本:

封面图片

近几个月我一直在做 AI 动画的尝试,许多 demo 都得到了内外网的很多关注,其中 AI 蜘蛛侠的效果在抖音拿到了 17 万喜

近几个月我一直在做AI动画的尝试,许多demo都得到了内外网的很多关注,其中AI蜘蛛侠的效果在抖音拿到了17万喜欢和1.8万评。很多朋友希望我能分享是怎么做的,决定趁机做一个梳理总结。完整文章链接:https://mp.weixin.qq.com/s/tGlvrC_CanprU7eTooqShg目前有许多不同的路径,大致包括:A.根据参考视频进行风格迁移、B.文本生成动画、C.根据静态图生成动画等。(在每一大类的末尾,我都会附上我推荐的教程,这些教程都是免费的,对我在探索的过程中起了很大的帮助。)再次感谢开源社区。#AI工作流

封面图片

这个利用 3D 制作白膜然后 SD 重绘生成视频的项目,最后的效果非常好,同时作者给了相对详细的操作步骤。##ai画图

这个利用3D制作白膜然后SD重绘生成视频的项目,最后的效果非常好,同时作者给了相对详细的操作步骤。下面是他的工作流:基础渲染:首先在Cinema4D软件中创建并动画化了一个3D虚拟角色,这个角色的体型和面部结构都是依照客户的样貌设计的。我还细致地给这个3D角色做了纹理处理,以便使用EbSynth软件更好地追踪角色身体的不同部位。这里还涉及到了我为角色设计的3D服装,我将它们作为一个独立的渲染通道,在后期合成阶段加入。AI输出:接着,我利用了一个AI模型(SD1.5版本,当然是得到客户许可后进行的)来处理客户的相貌特征,并使用了一个名为WarpFusion的技术来生成你现在看到的图像序列。使用WarpFusion的过程非常耗时,主要是因为它需要不断地尝试和调整。去闪烁:这是最复杂的一个步骤。我使用EbSynth进行初步处理,然后通过DavinciResolve和TopazVideoAI软件来平滑化WarpFusion的输出结果,同时尽量保持细节。此外,我还使用了GoogleResearch的帧插值工具来优化角色脸部的某些动作(这些动作在EbSynth中无法得到很好的处理),然后在AfterEffects软件中把这些处理后的画面加入到视频中。3D服装:这一步主要是把之前“基础渲染”阶段制作的服装渲染通道加入进来,并尽可能地进行蒙版处理和合成。由于去闪烁过程对角色动作的插值有所改变,所以服装渲染并不完全同步于角色,但效果依然可以接受。后期处理:这个步骤主要是在AfterEffects中进行常规的视频合成工作。来源:Reddit用户Jushooter

封面图片

Meta确认其Llama 3开源大语言模型将于下个月推出

Meta确认其Llama3开源大语言模型将于下个月推出Meta公司全球事务总裁尼克-克莱格(NickClegg)说:"我们希望在下个月内,甚至更短的时间内,开始推出我们新的下一代基础模型套件Llama3。"他的描述听起来像是要发布该产品的几个不同迭代或版本。"今年内,我们将发布一系列具有不同功能、不同通用性的模型,很快就会开始发布。"Meta首席产品官ChrisCox补充说,计划用Llama3支持Meta的多个产品。一年多前,OpenAI推出了ChatGPT,并将人工智能生成式问答变成了日常的主流体验,这让Meta和Google等其他大型科技公司措手不及。Meta公司在人工智能方面基本上采取了非常谨慎的态度,但这并没有得到公众的认可,以前版本的Llama被批评为能力过于有限。(Llama2于2023年7月公开发布)。第一版Llama并未对外发布,但仍在网上泄露)。与前几代产品相比,Llama3的功能更强大,不仅能更准确地回答问题,还能回答更广泛的问题,其中可能包括更具争议性的话题。该公司希望这将使产品受到用户的欢迎。"随着时间的推移,我们的目标是让由Llama驱动的MetaAI成为世界上最有用的助手,"人工智能研究副总裁JoellePineau说。"要达到这个目标,还有相当多的工作要做。"该公司没有谈及《Llama3》中使用的参数的大小,也没有提供它将如何工作的任何演示。预计它将拥有约1400亿个参数,而最大的Llama2型号只有700亿个参数。最值得注意的是,Meta的Llama系列是作为开源产品构建的,代表了一种不同的哲学方法,即人工智能作为一种更广泛的技术应如何发展。与专有模式相比,Meta希望通过这种方式获得更多开发者的青睐。但Meta似乎也在谨慎行事,尤其是在文本生成之外的其他生成式人工智能方面。皮诺说,公司尚未发布图像生成工具Emu。考克斯说:"延迟、安全性和易用性都非常重要,只有这样才能生成令你自豪的图像,并代表你的创意背景。"具有讽刺意味的是,或者可以说是意料之中的,即使在Meta公司努力推出Llama3的同时,公司内部也有一些对生成式人工智能持怀疑态度的重要人士。兼任Meta首席人工智能科学家的著名人工智能学者YannLeCun对生成式人工智能的整体局限性进行了抨击,并表示他将赌注押在生成式人工智能之后。他预测这将是联合嵌入式预测架构(JEPA),这是一种训练模型和产生结果的不同方法,Meta公司一直在使用这种方法在图像生成领域构建更准确的预测性人工智能。"人工智能的未来是JEPA。它不是生成式人工智能,"他说。"我们得给克里斯的产品部门改个名字"。...PC版:https://www.cnbeta.com.tw/articles/soft/1426784.htm手机版:https://m.cnbeta.com.tw/view/1426784.htm

封面图片

看到 @小七姐 的 PPT 制作助手 Prompt, 我也手痒做了一个. 和她的版本略有不同:

看到@小七姐的PPT制作助手Prompt,我也手痒做了一个.和她的版本略有不同:-不使用RAG,让AI裸出-减少对话轮数-采用金字塔原理,作为内容生成方法-采用审批员制,对内容进行二次制作完整的效果,点击:https://kimi.moonshot.cn/share/cp0agua2jko6unougkq0总体效果也还可以,欢迎尝试,直接将以下Prompt复制到Kimi即可:你是一名资深的PPT制作大师,你是一名PPT制作大师,遵循以下工作思路和用户展开对话,并协助他们完成PPT设计:1.确认PPT的使用场景:@条件一@让用户提供PPT的<主题>,<制作目的>和<展示对象>@条件二@让用户提供PPT演示时长2.根据用户提供的@条件@,总结PPT的<类型>,并将你的分析用一句话展示出来.3.你将提供3个说服力框架,请求用户反馈.如果用户有其它方案,可采用用户的方案.4.根据用户所选择的框架,采用麦肯锡金字塔原理,从最重要的信息开始,然后逐步展开到次要的细节,以下是该方法的说明:```自上而下金字塔结构1.提出主题思想2.设想受众的主要疑问想清楚要解决谁的什么问题。3.写序言:背景-冲突-疑问-回答背景是问题产生的前提条件,冲突是背景中发生了哪些能使读者产生疑问的“冲突”,疑问是我们要解决的问题,回答就是主题思想。4.与受众进行疑问、回答式对话疑问、回答式对话,就是自上而下的金字塔结构。从上一层思想到下一层思想。5.对受众的新疑问,重复进行疑问/回答式对话思想慢慢开展,层级慢慢丰富。```你将根据这一方法,为用户初步提供PPT结构请求用户对PPT结构里的内容进行确认5.你是一名严格的,具有10年经验的PPT大师:-对PPT内容进行审阅,包括主题句,分论点-根据修改意见对原稿直接进行修改-将最终结果输出为markdown格式

封面图片

Google加入开源战局 低配版Gemma相当于OpenAI把GPT-3开源了

Google加入开源战局低配版Gemma相当于OpenAI把GPT-3开源了怎么理解这个动作的重要性呢?你可以粗暴的理解为:这有点像现在正在训练更强大的GPT-5的OpenAI,把GPT3的低参数版给开源了。(前几天SamAltman被问过这个问题,你们是否会在未来把GPT3开源,他没有直接回答。现在看来Google针对性很强啊。)(X上一张有意思的图)根据Google官方对Gemma的介绍,它的基本信息如下:Gemma是Google开源的一个大型语言模型,而非像Gemini那样是多模态的,它基于与Gemini相同的技术构建,但完全公开并允许商用授权。Gemma模型有两个主要版本,分别是Gemma7B(70亿参数)和Gemma2B(20亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了6万亿tokens。Gemma模型的特点包括:架构细节:Gemma模型具有不同的参数规模,Gemma-2B有18层,d_model为2048,而Gemma-7B有28层,d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数,以及词汇量。新技术:Gemma采用了一些新技术,如Multi-QueryAttention、RoPEEmbeddings、GeGLU激活函数以及NormalizerLocation,这些技术有助于提高模型的性能。评测结果:Google官方宣称Gemma模型在70亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。开源情况:Gemma模型遵循一个自定义的开源协议,允许商业使用。发布完,JeffDean就对这个系列模型划了重点:Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中,性能超过了广泛使用的Llama-27B和13B模型。它在数学/科学和编程相关任务上,通常也超过了Mistral7B模型的性能。Gemma-2BIT和Gemma-7BIT这两个经过指令调整的模型版本,在基于人类偏好的安全评估中,都优于Mistral-7Bv0.2指令模型。特别是Gemma-7BIT模型在遵循指令方面也表现更佳。(有意思的是,在Google晒出的成绩对比中,阿里的千问背后的模型Qwen系列表现也很亮眼)我们也发布了一个负责任的生成性人工智能工具包(ResponsibleGenerativeAIToolkit),它为负责任地使用像Gemma模型这样的开放模型提供了资源,包括:关于设定安全政策、安全调整、安全分类器和模型评估的指导。学习可解释性工具(LearningInterpretabilityTool,简称LIT),用于调查Gemma的行为并解决潜在问题。一种构建具有最小样本量的强大安全分类器的方法论。我们发布了两个版本的模型权重:Gemma2B和Gemma7B。每个版本都提供了预训练和指令调整的变体。我们为所有主要框架提供了推理和监督式微调(SFT)的工具链:通过原生Keras3.0支持的JAX、PyTorch和TensorFlow。提供了即用型的Colab和Kaggle笔记本,以及与流行的工具如HuggingFace、MaxText、NVIDIANeMo和TensorRT-LLM的集成,使得开始使用Gemma变得简单。预训练和指令调整的Gemma模型可以在您的笔记本电脑、工作站或GoogleCloud上运行,并且可以轻松部署在VertexAI和GoogleKubernetesEngine(GKE)上。在多个AI硬件平台上的优化确保了行业领先的性能,包括NVIDIAGPU和GoogleCloudTPUs。使用条款允许所有规模的组织负责任地进行商业使用和分发。可以看到JeffDean和Google这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病CloseAI且被外界质疑安全性保障的OpenAI。现在,憋坏了的Google正式四面开战了。未来它将用Gemma对抗Llama,用Gemini对抗GPT。无论是开源还是闭源,竞争越来越焦灼了。相关文章:Google发布了一对开源人工智能模型Gemma2B和7B适用于较小的任务...PC版:https://www.cnbeta.com.tw/articles/soft/1419839.htm手机版:https://m.cnbeta.com.tw/view/1419839.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人