目前网上看到的 90% 的 AI 短片用的都是 image to video 工作流，先抽卡再拼接。

目前网上看到的 90% 的 AI 短片用的都是 image to video 工作流，先抽卡再拼接。之前一直懒得试，趁元宵节有空就和 @海辛Hyacinth 玩了一下，顺便分享一下我们的流程，希望对你有用。【1】第一步，先找音乐。根据音乐确定视频节奏，估算需要的镜头&剪辑点。顺便推荐一下我们一直在用的版权音乐素材库 Epidemic Sound，BGM和音效都很全，还可以根据情绪来搜索。 ▶ Epidemic Sound：（当然，也有很多开源 AI 音乐库，只是我们不想再多抽一个环节的卡而已。）【2】第二步，先发散找现成的静帧参考，确定风格，不是上来就抽卡。目前 Midjourney 官网上的搜索已经足够好用了，你能在上面找到足够多的设计参考，简直是 AI 版的 Pinterest 。 ▶ Midjourney: 【3】第三步，根据景别组装时间线，不是上来就抽卡。当你收集了足够多的参考图后，就可以用来组建时间线了。我们一直用 Milanote 这个画布工具来进行线上协作，支持大部分的媒体类型，自由又直观。 ▶ Milanote: 【4】第四步，抽静帧的卡，把风格参考图改成自己的生成图。用 Midjourney 的一大好处就是可以抄作业，直接【Copy Prompts】再调整一下关键词，一个风格完全一致的静帧就出来了，抽不到想要的再自己写。【5】第五步，抽视频的卡，但不要只局限在一个平台。其实除了主流的 Runway，还有很多值得一试的视频生成工具，Morph Studio、Stable Video 都是很好的选择。 ▶ Morph Studio:（对，就是 @海辛Hyacinth 她们家产品，欢迎给她下需求） ▶ Stable Video：（对，就是 SVD 的在线版，新用户有免费额度）如果你本地也部署了SVD，甚至可以线上线下一起跑，效率翻倍。【6】剪辑。反正我用剪映，我很喜欢它的自动踩点功能，找剪辑点超级方便。

在Telegram中查看

相关推荐

如何做一部风格化鲜明又统一的 AI 短片？

如何做一部风格化鲜明又统一的 AI 短片？「VISION」视频制作流程分享分享色彩统一、主题鲜明、流动感强的技巧原视频：偶然在 MJ 中抽卡“Monument Valley”发现了这个色彩斑斓红色岩石般的风格便开启这次 AI 创作之旅，文案、配音、配乐、图片、视频均由 AI 制作，我提供灵感和剪辑。 1⃣MJ Style Prompt 在 MJ 网页版更好操作，用第一张图作为风格参考图后，后面的 prompt 只需要描述物体意向即可。比如鸟、树、森林、月亮，是本次我想创作的主题。如图2。 2⃣文案与配音想营造马丁卢瑟金充满希望向上的生命力，我使用11labs 克隆自己的声音，用日语念独白。独白让 GPT4o 生成一份“模仿马丁 I have a dream 演讲，关于生活向往的文章” 我上传了在干净环境下录制的4mins 说话素材到11labs 即可完成 instant clone voice，如图3。实测声音特别像我念日语！很惊艳 3⃣配乐配乐用 Suno ，描绘创作想法就可以找到你想要的配乐，没抽卡几次。 prompt 很简单：flying through a monument valley, relaxing , exciting, and a little bit halarious and weird. 因为想要一种向上，但又不是正能量向上的感觉。所以加上了“略微奇怪” 4⃣动起来的视频 Luma 和 Runway 均使用了（为了分摊成本和时间）。从视频右上角水印你可以看出哪些是 Luma 的。 Runway 适合只有一点动感的场景，比如水波纹流动，略微场景透视变化。 Luma 适合开头飞跃山谷这种透视变化的3D/2.5D 场景。 Runway 更稳定一些，Luma 抽卡失败率较高，可以酌情考虑成本和抽卡时间。 5⃣蒙太奇剪辑只需要使用 text based 剪辑手法即可，根据音乐节奏调整素材速度。字幕和字体很关键，适当加一些转场特效。一个小 tips，让画面与音乐变化或台词变化的节奏错开一点，会增加视频的有机程度，没那么像卡点剪辑。

看到@归藏推荐了这个项目，看了一下的工作流，非常适合开发者学习。

看到@归藏推荐了这个项目，看了一下项目的工作流，非常适合开发者学习。项目依赖了如下的服务： Replicate - AI provider Bun - package manager PlanetScale - database Prisma - ORM Next.js - app router, server actions Vercel Blob - storage Vercel - hosting 模型训练和部署：通过Replicate，您可以为项目创建和部署AI模型，通过api的形式访问你的模型。数据库管理：使用PlanetScale获得可扩展的数据库解决方案，并利用Prisma以类型安全的方式与您的数据库交互，云端mysql。数据大了他也能给你优化。 Web开发和托管：使用Next.js构建Web应用程序，并在为现代Web开发工作流程和无服务器函数优化的Vercel上托管它们。从前后端混合开发的php到前后端分离的项目，再到next又混合回去了。文件存储：Vercel Blob是您用于存储和服务文件的首选解决方案。出海的小伙伴可以参考下。了解完vercel的blob，看了下他们家还有postgres的服务，一个月20刀这些都包含了，还是爽啊，不需要自己折腾基础运维，以上仅供参考。

通过我这段时间高强度使用Midjourney，总结一下我保证（尽量）高效稳定出图的AI工作流：

通过我这段时间高强度使用Midjourney，总结一下我保证（尽量）高效稳定出图的AI工作流： 1. 心中有明确的画面：使用图片Describe，找到AI是如何描述这种图像的，然后通过输入prompt找到描述和期望最准确的，不断调整修改关键词，实在不行尝试垫图。（弥散渐变就是依靠这种方式） 2.没有明确的画面：使用Chatgpt，给它一个主题，让其自由发挥，前期需要先调教过。然后不断调整修改关键词。 3.积累参数类的关键词：过程中需要积累一些midjourney打标得比较好的关键词，比如close up，就会产生特写镜头的画面。风格类的关键词不建议记忆了，难以通用适配到所有画面，我目前的做法是先存到表格上。通过以上一些磨合，能让Midjourney生成一些比较符合我预期的图片。

AI会改变世界！优化了一下工作流，预先给每个场景的服装、妆容、背景写一段提示词，然后复制给这个场景的所有帧，渲染的时候选择自动读

AI会改变世界！优化了一下工作流，预先给每个场景的服装、妆容、背景写一段提示词，然后复制给这个场景的所有帧，渲染的时候选择自动读取提示词。效果不错，发型和服装都稳定了不少，也不会因为全局加某个提示词导致画面错乱。

AI会改变世界！优化了一下工作流，预先给每个场景的服装、妆容、背景写一段提示词，然后复制给这个场景的所有帧，渲染的时候选择自动读

我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是怎么做到如此断层领先的，要说屯人屯钱屯资源，谷歌脸书亚马逊都不可能比不过

我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是怎么做到如此断层领先的，要说屯人屯钱屯资源，谷歌脸书亚马逊都不可能比不过它，甚至按照估值来算的话，谷歌一年的利润（注意，还不是收入）就可以买下OpenAI了，但还是挡不住屡次被OpenAI截胡。目前来看，OpenAI确实是距离AGI最近的那家公司，它的产品泛用性太高了，就像很多精调之后的垂直模型都宣称能在某个细分题库里打败GPT-4，这是事实吗，是的，但这种定向刷分行为没有意义，最后体验下来，还是只有ChatGPT能够全程跟用户说人话。再比如我依然认为Midjourney的出图艺术性是独一档的，但DALL·E-3很明显训练方向和旨在临摹画师的Midjourney是不一样的，它更遵从文字逻辑，用朴实但准确的绘制反映AI理解的世界图景，所以在生产力上，它不如Midjourney有价值，却很适合搭在ChatGPT里去完善能力，够用就行，而且经济普惠。 Sora还没用上，不过目测也会强在泛用性，两步抽卡的图转视频模式以后的市场会越来越小了先在出图时抽卡，再去转视频抽卡，容错率太低了越来越多的AI视频产品也都不接受第三方的图片了，没办法，因为没有介入图片的生产环节，需要重新对图片进行理解再去转化，这条路走歪了。要么像是Sora这样，直接合并抽卡次数，用文本逻辑一次性生成视频，保持成本足够低，就一定能建立飞轮，要么和Midjourney的尝试方向一样，做封闭式的生态，发挥图片训练的优势去外延视频，而Runway和Pika这样来者不拒的视频工具，确实会压力巨大，很难维持付费规模。多扯一点，字节跳动直接把抖音的CEO调去管剪映，是真的果断，年度大会上梁茹波刚反省了公司内部的技术讨论直到2023年才有GPT相关议题，没过几天核心产品的一把手就直接去负责一款工具产品，这样的执行效率在大公司里委实不多见，而Sora的王炸反应，又及时的证明了字节跳动还真不是杯弓蛇影，前瞻性拉满了。 2024年，会很精彩。当然了，英伟达也会继续赢麻⋯⋯

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

如何做一部风格化鲜明又统一的 AI 短片？

看到@归藏 推荐了这个项目，看了一下的工作流，非常适合开发者学习。

通过我这段时间高强度使用Midjourney，总结一下我保证（尽量）高效稳定出图的AI工作流：

AI会改变世界！优化了一下工作流，预先给每个场景的服装、妆容、背景写一段提示词，然后复制给这个场景的所有帧，渲染的时候选择自动读

AI会改变世界！优化了一下工作流，预先给每个场景的服装、妆容、背景写一段提示词，然后复制给这个场景的所有帧，渲染的时候选择自动读

我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是怎么做到如此断层领先的，要说屯人屯钱屯资源，谷歌脸书亚马逊都不可能比不过

看到@归藏推荐了这个项目，看了一下的工作流，非常适合开发者学习。