AIGC Weekly #12更新了,本期主要介绍了我制作的8K分辨率高清AI壁纸,GPT-4以及能力推测。下面是上周一些行业动

AIGC Weekly #12更新了,本期主要介绍了我制作的8K分辨率高清AI壁纸,GPT-4以及能力推测。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看: 本周精选: 我制作了一批AI生成的桌面壁纸: GPT-4要来了?-推测多模态模型的能力: 微软Kosmos-1模型论文: 谷歌PaLM-E模型介绍: GPT-4可能具备的能力: - 引入了视觉智商测试集,用于诊断 MLLM 的非语言推理能力。 - 无OCR阅读理解:输入屏幕截图、扫描文档、街道标志或任何包含文本像素。直接推断内容而不需要明确使用OCR。这对于在多媒体网页上解锁AI应用程序或来自真实世界摄像头的“野外文字”非常有用。 - 多模态聊天:关于一张图片进行对话。甚至可以在中途提供“后续”图像。 - 广泛的视觉理解能力,如字幕、视觉问答、物体检测、场景布局、常识推理等。 - 音频和语音识别(?):这个没有在Kosmos-1论文中提到,但Whisper已经成为OpenAI API,并且应该很容易集成。 产品推荐: Fini-将知识库转换为聊天机器人: OpenGPT-快速创建你自己的AI应用: OpenAI Translator-基于Chat GPT的桌面翻译工具: Logoscapes-将你的LOGO融入到现实照片中: Invideo-快速将你的想法制作为视频: Poe-现在体验最好的聊天机器人产品:

相关推荐

封面图片

AIGC Weekly #18更新了,本期主要介绍了Mini GPT-4等开源项目以及一些传统互联网公司的AI尝试动态和其他一堆

AIGC Weekly #18更新了,本期主要介绍了Mini GPT-4等开源项目以及一些传统互联网公司的AI尝试动态和其他一堆非常值得阅读的内容。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看: 本周精选: 上周值得关注的开源项目 RedPajama:一个计划创建一套领先开源模型的项目: Mini GPT-4:取巧的方式实现了多模态能力: Stable Diffusion的开发商Stability AI发布了开源大语言模型Stable LM: 复旦训练的语言模型Moss开源了: 一些传统互联网厂商的AI尝试 Raycast AI 逐步开放测试资格,这是功能介绍: 谷歌计划构建新的搜索引擎: Adobe Firefly 可以通过自然语言编辑视频了: Webflow推出了自己的AI能力: 产品推荐: AI 论文速递:快速阅读近期AI论文: Finchat:一个金融信息的ChatGPT: Vercel AI Playground:免费使用多个语言模型进行对比: Codeamigo:利用AI学习代码:

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型 “使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。 所以,我们开始尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了 LLaVA:大型语言和视觉助手。 这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。 早期实验表明,LLaVA 展示了令人印象深刻的多模型聊天能力,有时在看不见的图像 / 指令上表现出多模态 GPT-4 的行为,并且与合成多模态指令跟随数据集上的 GPT-4 相比,相对分数达到了 85.1%。 当在 Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53%,这个准确率颇高。 因此,我们在 GitHub 正式开放 GPT-4 生成的视觉指令调整数据、模型和代码库。” |||||

封面图片

AIGC Weekly #14更新了,上周又是疯狂的一周,本期主要介绍了我如何用GPT-4帮忙构建自动化程序,ChatGPT插件

AIGC Weekly #14更新了,上周又是疯狂的一周,本期主要介绍了我如何用GPT-4帮忙构建自动化程序,ChatGPT插件系统等其他动态、一堆非常值得阅读的内容。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看: 本周精选: 我在GPT-4的帮助下创建了一个自动信息收集机器人: Open AI 发布 ChatGPT插件系统: 这里加入等待列表: 这篇文章详细测试了ChatGPT插件系统的能力: lencx写的插件开发指南: Wolfram插件使ChatGPT的数学能力达到了匪夷所思的地步: Github 发布 GitHub Copilot X: Copilot Chat:不仅仅是一个聊天窗口。它可以识别开发人员键入的代码、显示的错误消息,并将其深度嵌入到 IDE 中。

封面图片

今日重磅: Open AI 正式推出 GPT-4!

今日重磅: Open AI 正式推出 GPT-4! 在演示视频中,GPT-4 可以实现: - 问它如何清洁装满食人鱼的鱼缸里面?( 回答惊喜连连~) - 自动编写一个python脚本来分析我的月度财务情况(支持主流编程语言) - 分析、理解图片,并「预测」可能性(这里的预测太酷了: 杠杆那头的棒球会被击飞) 综合来说: GPT-4 是多模态。直接读取图片和文档等应用场景。 (多模态意味着机器拥有了更多维度的输入数据处理能力,类似生物有了多感官能力。) GPT-4的高级推理能力超过了ChatGPT。 上下文理解巨幅提升。 GPT-4能够处理超过25,000字的文本,允许使用案例,如长形式的内容创建,扩展的对话,以及文件搜索和分析。 中文准确度大幅提升。 更多请访问Open AI官网: Invalid media:

封面图片

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI 发布新一代大型多模态模型 GPT-4 GPT-4 是一个大型多模态模型,可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现,例如模拟律师考试中,GPT-4 的得分约为前10%,而 GPT-3.5 的得分约为倒数10%。 在多语言测试中,GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ,包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。 OpenAI 还开放了角色扮演和性格定制能力,开发人员和用户可以自定义他们的AI风格,而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。 ChatGPT Plus 订阅用户现可直接 GPT-4 ,未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要候选名单,每1k prompt tokens 的价格为$0.03,每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段,仅对少部分客户开放。 微软在 GPT-4 发布后也正式 Bing Chat 基于 GPT-4 运行,同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同,Bing Chat 可联网获取实时信息并且免费。

封面图片

具有视觉功能的 GPT-4 Turbo 正式发布

具有视觉功能的 GPT-4 Turbo 正式发布 人工智能公司 OpenAI 宣布,具有视觉功能的 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过其 API 向开发人员提供。该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小和截止至 2023 年 12 月的知识库并新增了视觉理解功能。视觉请求现在可以使用 JSON 模式和函数调用。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人