AIGC Weekly #12更新了,本期主要介绍了我制作的8K分辨率高清AI壁纸,GPT-4以及能力推测。下面是上周一些行业动

AIGCWeekly#12更新了,本期主要介绍了我制作的8K分辨率高清AI壁纸,GPT-4以及能力推测。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看:https://op7418.zhubai.love/posts/2246868665025081344本周精选:我制作了一批AI生成的桌面壁纸:https://mbd.pub/o/bread/ZJaWm5huGPT-4要来了?-推测多模态模型的能力:https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html微软Kosmos-1模型论文:https://arxiv.org/abs/2302.14045谷歌PaLM-E模型介绍:https://palm-e.github.io/GPT-4可能具备的能力:-引入了视觉智商测试集,用于诊断MLLM的非语言推理能力。-无OCR阅读理解:输入屏幕截图、扫描文档、街道标志或任何包含文本像素。直接推断内容而不需要明确使用OCR。这对于在多媒体网页上解锁AI应用程序或来自真实世界摄像头的“野外文字”非常有用。-多模态聊天:关于一张图片进行对话。甚至可以在中途提供“后续”图像。-广泛的视觉理解能力,如字幕、视觉问答、物体检测、场景布局、常识推理等。-音频和语音识别(?):这个没有在Kosmos-1论文中提到,但Whisper已经成为OpenAIAPI,并且应该很容易集成。产品推荐:Fini-将知识库转换为聊天机器人:https://www.usefini.com/OpenGPT-快速创建你自己的AI应用:https://open-gpt.app/OpenAITranslator-基于ChatGPT的桌面翻译工具:https://github.com/yetone/openai-translatorLogoscapes-将你的LOGO融入到现实照片中:https://logoscapes.ai/Invideo-快速将你的想法制作为视频:https://invideo.io/ai/Poe-现在体验最好的聊天机器人产品:https://poe.com/

相关推荐

封面图片

AIGC Weekly #14更新了,上周又是疯狂的一周,本期主要介绍了我如何用GPT-4帮忙构建自动化程序,ChatGPT插件

AIGCWeekly#14更新了,上周又是疯狂的一周,本期主要介绍了我如何用GPT-4帮忙构建自动化程序,ChatGPT插件系统等其他动态、一堆非常值得阅读的内容。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看:https://op7418.zhubai.love/posts/2252030503228076032本周精选:我在GPT-4的帮助下创建了一个自动信息收集机器人:https://mp.weixin.qq.com/s?__biz=MzU0MDk3NTUxMA%3D%3D&mid=2247483868&idx=1&sn=82ef05f07a6a8a63e434b5bff69c5fbb&chksm=fb304925cc47c0337f4127e9199b0e6907dff0c01f2912a9f041e737ff25d738787ef7d52ad3&token=1127584867&lang=zh_CN#rdOpenAI发布ChatGPT插件系统:https://openai.com/blog/chatgpt-plugins这里加入等待列表:https://openai.com/waitlist/plugins这篇文章详细测试了ChatGPT插件系统的能力:https://andrewmayneblog.wordpress.com/2023/03/23/chatgpt-code-interpreter-magic/lencx写的插件开发指南:https://mp.weixin.qq.com/s/AmNkiLOqJo7tEJZPX34oegWolfram插件使ChatGPT的数学能力达到了匪夷所思的地步:https://writings.stephenwolfram.com/2023/03/chatgpt-gets-its-wolfram-superpowers/Github发布GitHubCopilotX:https://github.blog/2023-03-22-github-copilot-x-the-ai-powered-developer-experience/CopilotChat:不仅仅是一个聊天窗口。它可以识别开发人员键入的代码、显示的错误消息,并将其深度嵌入到IDE中。

封面图片

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称:“PaLM2在逻辑和推理方面进行了广泛的训练,具有极强的逻辑和推理能力。同时,它还接受了多语言文本训练,支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫(SlavPetrov)称,最新的PaLM2在一系列基于文本的任务上表现更好,包括推理、编码和翻译等。他说:“与PaLM1相比,PaLM2有了显著提升。”对于PaLM2,谷歌工程师在一份研究论文中称,该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样,PaLM2与其说是一款单一产品,不如说是一系列产品。它拥有不同的版本,可部署在消费者和企业环境中。确切而言,PaLM2分为四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,依据特定领域的数据进行了微调,以执行企业客户的特定任务。其中,体积最小的Gecko可以在手机上运行,每秒可处理20个Token,大约相当于16或17个单词。谷歌还称,PaLM2已被用于支持自家的25项功能和产品,其中包括AI聊天机器人Bard,以及谷歌文档、幻灯片和工作表等。...PC版:https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版:https://m.cnbeta.com.tw/view/1359045.htm

封面图片

AIGC Weekly #18更新了,本期主要介绍了Mini GPT-4等开源项目以及一些传统互联网公司的AI尝试动态和其他一堆

AIGCWeekly#18更新了,本期主要介绍了MiniGPT-4等开源项目以及一些传统互联网公司的AI尝试动态和其他一堆非常值得阅读的内容。下面是上周一些行业动态和产品推荐,更多详细的内容可以去图里的竹白查看:https://op7418.zhubai.love/posts/2262249464033574912本周精选:上周值得关注的开源项目RedPajama:一个计划创建一套领先开源模型的项目:https://www.together.xyz/blog/redpajamaMiniGPT-4:取巧的方式实现了多模态能力:https://huggingface.co/spaces/Vision-CAIR/minigpt4StableDiffusion的开发商StabilityAI发布了开源大语言模型StableLM:https://t.co/as5GzLhMTo复旦训练的语言模型Moss开源了:https://github.com/OpenLMLab/MOSS一些传统互联网厂商的AI尝试RaycastAI逐步开放测试资格,这是功能介绍:https://t.co/MGhtEjidft谷歌计划构建新的搜索引擎:https://searchengineland.com/google-planning-new-search-engine-while-working-on-new-search-features-under-project-magi-395661AdobeFirefly可以通过自然语言编辑视频了:https://www.youtube.com/watch?v=30xueN12guw&t=1sWebflow推出了自己的AI能力:https://webflow.com/blog/power-of-ai产品推荐:AI论文速递:快速阅读近期AI论文:https://briefgpt.xyz/chatgptFinchat:一个金融信息的ChatGPT:https://finchat.io/VercelAIPlayground:免费使用多个语言模型进行对比:https://play.vercel.ai/r/mWjP5DtCodeamigo:利用AI学习代码:https://codeamigo.dev/

封面图片

人工通用智能的火花: GPT-4 的早期实验 #文件 @qiqubaike #pdf

人工通用智能的火花:GPT-4的早期实验#文件@qiqubaike#pdf人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23],是使用前所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。

封面图片

华科大发布AI大模型猴子:部分超越GPT-4

华科大发布AI大模型猴子:部分超越GPT-4官方介绍称,在18个数据集上的实验中,华科大Monkey模型表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、Google的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者GPT-4V。Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。另一亮点是能够处理分辨率高达1344x896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。据悉,目前业内能处理的图片最大分辨率为448×448像素。值得一提的是,该团队已将Monkey代码在全球最大的代码托管服务平台GitHub上开源。...PC版:https://www.cnbeta.com.tw/articles/soft/1403903.htm手机版:https://m.cnbeta.com.tw/view/1403903.htm

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。所以,我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了LLaVA:大型语言和视觉助手。这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态GPT-4的行为,并且与合成多模态指令跟随数据集上的GPT-4相比,相对分数达到了85.1%。当在ScienceQA上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%,这个准确率颇高。因此,我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人