我尝试了一下自然语言编程工具Dify,前几天在我的周刊里推荐过。

我尝试了一下自然语言编程工具Dify,前几天在我的周刊里推荐过。 花了20分钟用这个应用写了一个东西,非常惊艳,完全没有写代码。如果没有Dify的话,我可能需要很长时间才能搞定它。 这个应用可以根据简短主题生成Midjourney提示词,效果很好。接下来我会分享一些创建过程,让大家更加了解这个平台。 你可以在这里访问Dify: 教程的详细内容也可以在这里查看: 正式开始我们的教程。 Dify可以选择两种应用一种是对话型应用类似于chatgpt那种,另一种是文本生成类应用没有多轮对话的机制点击按钮直接生成文本内容。我们要创建的Midjoureny提示词机器人,所以我们选择文本生成应用就行。 我们输入名称创建完成之后看到的页面就是我们的看板页面里面有一些数据监控和应用设置。我们先点击左侧的提示词编排,这里就是主要的工作页面了。 这个页面左侧是提示词设置和一些其他功能,右侧可以实时预览和使用你创建的内容。前缀提示词就是用户每次输入内容后触发的提示词了,可以理解为每次GPT都会按照你的前缀提示词内容去处理用户输入的信息。 可以看一下我的前缀提示词结构,主要有两部分前面是中文写的让GPT按照下面英文的结构输出照片的描述。英文的结构就是生成提示词的模板了,主要意思是【主题彩色照片,错综复杂的图案,鲜明的对比,环境描述,相机型号,与输入内容相关的镜头焦距描述,与输入内容相关的构图描述,四位摄影师的名字】 这个就是提示词的主要内容了。理论上你现在保存到右边预览区域输入你想生成的主题就能生成对应提示词了。 那可能有人注意到了后面的{{proportion}}和 {{version}}是什么呢,可以看到我右边需要用户选择图像比例和模型版本这两个变量就是用来传递用户选择的信息的。我们看一下如何设置。 我们的功能是把用户选择的信息填到提示词的最后方便用户直接复制不用重新填写和记忆这些命令,这里就要用到下面的变量功能。 变量的作用就是把用户表单填写或者选择的内容动态的带入到提示词里面。比如我这里创建了两个变量一个代表图像比例一个代表模型版本。点击添加按钮创建变量。

相关推荐

封面图片

创建之后首先需要填写前面的变量Key和字段名称,变量key需要英文。后面的可选开启之后这个字段就会是选填的。之后我们需要点击操作

创建之后首先需要填写前面的变量Key和字段名称,变量key需要英文。后面的可选开启之后这个字段就会是选填的。之后我们需要点击操作栏的设置来设置变量内容。 变量包括两种内容一种是文本变量一种是下拉选项,文本的就是用户需要手动输入,下拉的话就是选择了。这里我们主要是不想用户手打命令,所以我们选择下拉选项。增加需要的选项就行。 之后就是使用变量了,我们需要把变量key用两个{}包起来填写到前缀提示词里。这里由于我们不想让GPT改用户选择的内容,我加了一句提示词“如实输出变量内容”。 之后就是使用变量了,我们需要把变量key用两个{}包起来填写到前缀提示词里。这里由于我们不想让GPT改用户选择的内容,我加了一句提示词“如实输出变量内容”。 好了到这里我们的应用就创建完成了,测试输出没问题以后点击右上角的发布按钮,你的应用就发布了。你你和用户可以通过公开访问URL的地址访问你的应用。可以在设置里设置应用名称以及简介、图标之类的内容。 这就是利用Dify创建一个简单AI应用的流程,你还可以通过生成的API把你的应用部署在其他平台或者更改它的UI。同时Dify还支持上传你自己的数据,比如你可以建一个客服机器人帮助你回答自己产品的相关问题。教程到这里就结束了,感谢 @goocarlos 创建了这么好的产品。

封面图片

微软开发者大会简报:编程进入自然语言时代、“AI员工”闪亮登场

微软开发者大会简报:编程进入自然语言时代、“AI员工”闪亮登场 编程小白也能开发软件?纳德拉在周二演示了“帮助小白编程”的GitHub Copilot Workspace,这是一款通过聊天实现完成程序编写的软件。这将使任何新手,即使对编程语言几乎没有了解,也能开发自己的软件。纳德拉表示:“任何人都可以在瞬间将想法转变为代码,你能够控制这个过程中的每一个环节...这将使得编程更加快乐和有趣。”微软计划在未来几个月里进一步打磨这个功能,使其更加可用。AI员工走上台前在微软的职场协作软件Teams等一系列应用中,AI将不再是一个工具栏上的按钮,而是打工人们可靠的新同事。这项名为Team Copilot的新功能将使得Copilot成为每个工作团队的新成员。Copilot可以作为会议的主持人,管理议程并实时纪录会议纪要,以及追踪并安排团队成员会议后的行动。Copilot还能成为项目经理,通过创建和分配任务、跟踪截止日期等方式推动团队协作。在另一项产品更新中,微软也表示将在今年晚些时候推出一款“AI代理”工具类似于“AI虚拟员工”,可以执行监控电子邮件、帮助新员工入职、输入数据等一系列琐碎的自动化任务。微软小心翼翼地强调,Copilot不会接管人们的工作,只会接手其中一些无聊的部分。AI实时视频翻译功能微软的Edge浏览器将在近期推出一款视频实时翻译功能。与目前常见的视频字幕翻译不同,这款产品已经能提供实时语音同传翻译。Edge的AI实时翻译初始将支持彭博、路透等一系列主流视频网站和主流新闻网站,且只支持英语、印地语、德语、俄语、意大利语和西班牙语的双向互译。微软也表示,后续将会支持更多的网站和语言。一款骁龙迷你电脑在昨日发布一系列新笔记本电脑后,周二一款搭载高通骁龙X Elite芯片的迷你主机也面向开发者推出。除了高通的芯片外,这款形似Mac Mini的机器还有32GB LPDDR5x内存和512GB的SSD。考虑到这款机器售价达到899.99美元,比起昨天的笔记本电脑(起售价999美元)并没有明显的价格优势。不过这款产品似乎也没准备卖给普通消费者,要获得它的唯一渠道是在高通官网上填写一个面向开发者的表格。小模型也要多模态在今年4月更新“小模型”Phi-3后,微软也在周二拿出了Phi-3-vision模型。顾名思义,这个模型可以阅读文本和查看图片,同时这个42亿参数量的模型足够紧凑,能够在移动设备上运行。目前Phi-3-vision已经发布在Azure的模型库中。与DALL-E和Stable Diffusion不同,Phi-3-vision不会生成图像,主要用来理解图像中的内容并为用户进行分析。与Meta深入合作微软也在周二宣布将“Windows体积应用程序”(Windows Volumetric Apps)引入Meta的Quest头显设备,使开发人员能够将其应用程序扩展到3D空间。微软表示,该扩展将允许用户不离开支持他们工作依赖的应用程序,同时增强空间理解的能力。彩蛋:奥尔特曼现身整场发布会的压轴环节交给了OpenAI CEO山姆·奥尔特曼,面对全场开发者,奥尔特曼猛灌了一锅“心灵鸡汤”。在与微软CTO凯文·斯科特的对话中,奥尔特曼表示自上周发布GPT-4o以来经历了“疯狂的一周”,因为他“从未见过一种技术以如此有意义的方式被如此迅速地采用” 。这名创业导师也强调,他最重要的建议是,现在是一个特殊的时期,所以要抓住机会去构建你想要做的事情,不要等待。奥尔特曼认为,就创业而言,眼下是2008年移动互联网爆发、甚至是整个互联网时期“最令人兴奋的时刻”。但“ChatGPT之父”也补充称,不要指望AI能为你做所有的工作,人工智能是一种新的促进因素,但它并不会自动打破商业规则。 ... PC版: 手机版:

封面图片

:DeepMind视频音频生成技术,为无声创造同步音轨的创新工具,结合像素和自然语言提示生成丰富的音景

:DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景 - DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。 - V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。 - V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。 - V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。 - V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。 - 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。 - V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。 - 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。 - DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。 - V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。

封面图片

Al Comic Factory:漫画工厂 ||

Al Comic Factory:漫画工厂 || 自动生成有情感、有故事性的漫画内容。它使用大语言模型和如SDXL来自动创建漫画面板。 你只需提供一个简单的文本提示,AI Comic Factory就能根据这个提示生成包含人物对话和场景描述的漫画。支持批量生成不同语言的漫画。 主要功能: 1. 生成漫画面板:利用大型语言模型(LLM)和SDXL技术,根据用户提供的提示自动生成漫画面板,创作出有情感、有故事性的漫画内容。 2. 支持多种配置:项目可以根据用户的技术偏好或需求,选择不同的语言模型引擎(如OpenAI、Hugging Face等)和渲染引擎(如Replicate、VideoChain等),提供高度的自定义能力。 3. 用户交互:用户通过提供创作提示(如漫画的主题、人物对话等)来启动生成过程。项目的前端界面通常负责收集用户输入,并显示生成的漫画结果。 4. 支持多语言内容创建:项目能够生成不同语言的漫画,使得内容创作不受语言限制,更容易触及全球受众。 5. 批量生成漫画变体:通过灵活的配置和技术集成,AI Comic Factory能够快速生成多个漫画变体,为用户提供丰富的选择和测试不同创意的可能性。

封面图片

:用于构建强类型LLM函数的编程语言,包括测试和可观察性功能,BAML是一个轻量的编程语言,可以使用自然语言定义具有结构化输入和

:用于构建强类型LLM函数的编程语言,包括测试和可观察性功能,BAML是一个轻量的编程语言,可以使用自然语言定义具有结构化输入和输出的AI函数,还提供了VSCode Playground,可以在不离开VSCode的情况下即时测试任何LLM的提示。

封面图片

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片 该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度,或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理,而 Photoshop 风格的修改则包括裁剪、调整大小、旋转和添加滤镜,甚至是更改背景和混合图像。用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理,模型可以添加蔬菜配料,如西红柿和香草。全局优化输入请求的形式可以是"增加对比度,模拟更多光线",而 Photoshop 风格的修改可以是要求模型将人物从照片背景中移除,将图像的焦点转移到拍摄对象的面部表情上。苹果公司与加州大学的研究人员合作创建了 MGIE,并在 2024 年国际学习表征会议(ICLR)上发表了一篇论文。该模型可在 GitHub 上获取,包括代码、数据和预训练模型。这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12 月底,苹果公司透露,通过发明一种创新的闪存利用技术,它在 iPhone 和其他内存有限的苹果设备上部署大型语言模型 (LLM) 方面取得了长足进步。在过去的几个月里,苹果一直在测试一种可以与 ChatGPT 竞争的"Apple GPT"。据彭博社的马克-古尔曼(Mark Gurman)称,人工智能工作是苹果公司的一个优先事项,该公司正在为大型语言模型设计一个"Ajax"框架。The Information和分析师杰夫-普(Jeff Pu)都声称,苹果将在2024 年底左右在 iPhone 和 iPad 上推出某种生成式人工智能功能,也就是 iOS 18 上市的时候。据古尔曼称,iOS 18 据说将包括一个增强版 Siri,具有类似 ChatGPT 的生成式人工智能功能,并有可能成为 iPhone 历史上"最大的"软件更新。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人