接下来是两个比较重要的选项怕【聚类f0】会让输出效果更好，但是如果你的文件是歌声的话不要勾选这个选项，不然会疯狂跑调。【F0均值

接下来是两个比较重要的选项怕【聚类f0】会让输出效果更好，但是如果你的文件是歌声的话不要勾选这个选项，不然会疯狂跑调。【F0均值滤波】主要解决哑音问题，如果你输出的内容有比较明显的哑音的话可以勾选尝试一下。设置好之后我们点击【音频转换】按钮之后经过一段时间的运算，就可以生成对应的音乐了。【outputaudio】的位置就是生成的音频了可以试听，如果觉得OK的话可以，点击右边三个点弹出的下载按钮下载。我们现在生成的是一段只有人声的干声，这时候我们刚才剥离出来的伴奏就有用了，把两段音频合成就行，我用的剪映，直接把两段音轨拖进去导出就行，也可以加张图片变成视频。

在Telegram中查看

相关推荐

AI视频生成工具Pika Labs火了，Pika在某些场景和生物表现上比“老牌”工具RunwayML要强一些。

AI视频生成工具PikaLabs火了，Pika在某些场景和生物表现上比“老牌”工具RunwayML要强一些。Pika不像Runway那样有一个非常好用的网页界面，它和Midjourney一样都是在Discord里面使用的，而且官方没有个详细的新手教程。所以这里我这里就搞了一个保姆级手把手教程（图片顺序就是内容顺序）：首先是如何使用Pika首先你需要访问他们的官网https://www.pika.art/点击JOINBETA按钮。之后就会打开Discord的服务器加入页面，点击接受邀请就好。如果你还没有Discord账号的话之后就会进入登录或者注册流程这里都是中文按步骤走就行。当你正常进入服务器后，在左侧找到红框里这几个频道，随便找一个点进去。之后在频道中输入/就会弹出一个/create命令选择他可以看到命令包括两个部分首先是prompt这个很容易理解就是提示词，你需要在这里输入你想要生成内容的文字描述。这里只支持英语。刚才那张图还有个增加1按钮，点击按钮会出现一个图片上传的区域。如果你想要根据图片来生成的话可以在这里上传需要参考的图片。（强烈建议使用图片生成）之后回车发送信息耐心等待就行，有人可能找不到你之前的信息，可以在右上角收件箱这里找到所有@你的信息，点击跳转就可以到对应位置。视频生成之后Pika会@你，到对应位置就可以下载视频，也可以点击后面的两个按钮重新生成视频。会直接重新生成视频，可以更改提示词重新生成。最后，如果你一直都是使用图片生成视频的话可以使用/animate命令，直接上传图片不用再点击增加1按钮了。接下来我们来讲一下Pika的高级参数：首先是“-gsXX”Guidancescale数值越高生成的视频跟你提示词的相关性就越大，用来控制提示词权重的，建议的值为8-24。“-negXX”Negative是反向提示词的意思。跟在参数后面的词语描述的内容不会在生成的视频中出现。“-ar16:9”这个玩MJ的就很好理解了，意思是视频比例，如果你输入的是16：9那他就会生成16:9的视频。“-seedXXX”Seed种子的意思大家应该也都知道了，使用相同的种子会保证视频生成的连续性和相关性，视频的种子可以在下载的视频文件名中获取到。

之后就是选择与训练分支了，【vec768-layer12】好像效果会好一些，所以这里我选了这个分支。后就是点击【数据预处理】。

之后就是选择与训练分支了，【vec768-layer12】好像效果会好一些，所以这里我选了这个分支。后就是点击【数据预处理】。注意这里有个大坑，昨天折腾了我好久，你需要看一下你数据集里面有多少条数据，如果有几百条的的话，你需要把虚拟内存调大点，至于如何调整虚拟内存，这个百度就行，有很多教程。开始数据预处理之后这个框会有非常多的信息，基本都是进度到百分之几了，如果预处理出错，在这个框的最后会展示报错信息，如果没错这个回显的基本就到100%就结束了。如果你数据预处理完了，不想看那一堆信息的话可以点那个【清空输出信息】。数据处理完之后我们来看一下下面的几个参数，调整一下，准备开始训练。每多少步生成一次评估日志这里，用默认的200步就行【每隔多少步(steps)验证并保存一次模型】这里默认的800步也就够了，他的意思是每训练800步就会保存一次模型，这个保存的模型你是可以用的【仅保留最新的X个模型】这个就是字面意思如果每800步保存一次模型的话，你训练到8800的时候第800步的模型就会被自动删除，一个模型大概有1G左右这里看你的硬盘【批量大小】这个参数跟你的显卡的显存有关，6G建议是4，我的4070Ti是12G我昨天设置的8，我有点怂，其实12也行，我怕爆显存。上面几个参数设置完之后，我们选择当前训练分支跟我们数据预处理的时候的一致就行，然后点击写入配置文件，输出信息那里会有写入的结果，如果有报错也会显示在那里。如果你是第一次训练点击这个【从头开始训练】就行，如果你之前训练过你还想继续训练的话就点这个【继续上一次训练进度】。如果你之前有训练进度，然后你点了【从头开始】的话你的训练进度就会被清空，从新开始从第0步训练。在你点击按钮之后会弹出这样一个弹窗里面就是训练进度，我框起来的地方就是每200步输出的信息，那个loss的值就是判断模型质量好坏的标准，越低越好。如果你觉得现在的已经可以了的话按CTAL+C键就会停止训练，你可以去推理tab下尝试你的模型，如果不满意还是可以重新回来训练的。注意你如果设置的每800步保存的话起码要到800才能暂停训练，不然没有保存的模型供你使用。如果你觉得可以了暂停训练之后回到推理Tab就能看到你刚才训练的模型了，可能会有好几个因为你选的最多保留十个。按照我们第一期的内容正常使用就可以了。以上就是AI歌手的最后一部分内容了，感谢各位，如果觉得对你有帮助的话可以推荐给你的朋友。详细教程和文件可以在这里查看：https://mp.weixin.qq.com/s/IeeW1PbMUbxMlLl529JTYQ

答应大家的AI歌手教程来了，手把手教你训练你自己的AI歌手，主要分为使用模型和训练模型两部分，这里是第一部分如何使用模型生成音乐

答应大家的AI歌手教程来了，手把手教你训练你自己的AI歌手，主要分为使用模型和训练模型两部分，这里是第一部分如何使用模型生成音乐的部分，主要介绍了音源的处理，模型的使用和后期音轨的合成。看在藏师傅生病肝教程的份上希望各位多多支持，下面是具体步骤，图片顺序跟文字顺序对应详细教程和文件下载可以看这里：https://mp.weixin.qq.com/s/bXD1u6ysYkTEamt-PYI1RA要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去，所以我们需要先对你垫进去的声音进行处理。首先要安装UVR_v5.5.0，完成后我们需要给UVR增加一个模型解压UVR5模型文件将里面的两个文件夹粘贴到安装目录下的UltimateVocalRemovermodels就行。在处理之前你需要把你声音的格式转换成WAV格式，因为So-VITS-SVC4.0只认WAV格式的音频文件，现在处理了后面会省事点。可以用这个工具处理：https://www.aconvert.com/cn/audio/mp4-to-wav/处理完音频文件后我们就要开始利用UVR去掉背景音了，一共需要过两次，每次的设置都是不同的，下面两张图分别是两次的参数。接下来我们就要运行整合包的WebUI来推理声音了，如果你用的其他人的模型的话你需要先把模型文件放进整合包对应的文件夹下面：首先是模型文件夹下面后缀为pth和pt的两个文件放到整合包的logs44k文件夹下。之后是模型文件里那个叫config.json的json文件，放到整合包的configs文件夹下面。接下来我们就可以运行整合包的WebUI了，打开整合包根目录下的【启动webui.bat】这个文件他会自动运行并打开WebUI的网页，经常玩StableDiffusion的朋友肯定对这个操作不陌生。下面就是WebUI的界面我们使用模型的时候主要用的是推理这个功能。之后就是选择我们的模型，如果你刚才已经把模型放到合适的位置的话你现在应该能在下图的两个位置选择到你的模型和配置文件，如果有报错会在输出信息的位置显示。选择完模型之后我们需要点击加载模型，等待一段时间Loading之后模型会加载完成。OutputMessage这里会输出加载的结果。之后就是上传我们处理好的需要垫的音频文件了，把文件拖动到红框位置就行。

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

发现了一个交互非常有意思的AI写作工具，在写作每个阶段都单独优化了了AI介入的交互和形式。有这类应用开发计划的各位可以参考一下：

发现了一个交互非常有意思的AI写作工具，在写作每个阶段都单独优化了了AI介入的交互和形式。有这类应用开发计划的各位可以参考一下：比如在新建了一个空文档之后会有一个很大的按钮引导你用AI起草大纲。在正式写作的的时候界面不会有任何AI按钮干扰你你可以通过快捷键拉起一个输入框来输入提示，AI生成的内容会自动填充在你光标的位置。如果你需要频繁的与AI互动的时候右侧会有一个对话的侧边栏来供你和AI进行多轮对话，还可以将右侧的AI输出内容拖放到左边的文章里，也可以替换某一段内容。并且你所有的编辑历史也在里面，不用担心替换错内容后无法找回和重写。整个界面的设计风格非常克制和干净，细节打磨也非常好。免费用户用的GPT-3.5，付费的话模型会变成GPT-4链接：https://type.aiInvalidmedia:

OpenAI展示语音生成“武器库”：太强大以至于无法推广

OpenAI展示语音生成“武器库”：太强大以至于无法推广OpenAI称，公司在2022年底就启动了VoiceEngine的研发工作，并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用，公司只在小范围内与开发人员分享了该模型，未来可能不会广泛推出这一功能。新闻稿写道，儿童教育技术公司AgeofLearning正在使用这个模型来生成一些预先编写好的内容，并且还结合GPT-4创建实时的响应来与学生互动。在案例中，OpenAI放出了一段英语男声和西班牙语女声的样本音频，并用两段音频各生成了讲解知识的语音。另外，数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身，而VoiceEngine可以将样本的声音转换成多种其他语言，来帮助产品营销到销售演示。新闻稿提到，在转换语言时，VoiceEngine会保留原始说话者的母语口音，例如样本中的人使用的是法语，那么生成的英语将带有法国口音。本周早些时候，有消息称HeyGen正在进行新一轮融资，投前估值达到4.4亿美元。除此以外，OpenAI还展示了生成较小语系和孤立语系声音的能力，以帮助落后地区的社区卫生工作者；同时还与神经科学研究所探索AI在临床环境中的应用，比如帮助语言障碍者等用途。“太强大了导致无法推广”OpenAI写道，“我们认识到，生成声音的功能存在严重风险，这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作，以确保我们在建设过程中吸收他们的反馈。”OpenAI产品负责人JeffHarris告诉媒体，“如果你能正确地设置音频，基本上就能生成人类口径的声音，这是一种相当令人印象深刻的技术。”但Harris提到，准确模仿人类语音的能力确实存在安全隐患。今年1月，美国就出现“AI拜登”事件，由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候，拜登呼吁国会通过立法来监管AI，包括禁止“AI语音模仿”等。在测试计划中，OpenAI要求其合作伙伴遵守其制定的使用政策：在使用语音样本之前要征得声音主人的同意，并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印，以区分音频是否是由其工具创建的。OpenAI写道，“无论我们最终是否会广泛部署这项技术，让全球各地的人们了解这个发展方向都是非常重要的。”...PC版：https://www.cnbeta.com.tw/articles/soft/1425570.htm手机版：https://m.cnbeta.com.tw/view/1425570.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人