AIGC Weekly #12更新了，本期主要介绍了我制作的8K分辨率高清AI壁纸，GPT-4以及能力推测。下面是上周一些行业动

AIGCWeekly#12更新了，本期主要介绍了我制作的8K分辨率高清AI壁纸，GPT-4以及能力推测。下面是上周一些行业动态和产品推荐，更多详细的内容可以去图里的竹白查看：https://op7418.zhubai.love/posts/2246868665025081344本周精选：我制作了一批AI生成的桌面壁纸：https://mbd.pub/o/bread/ZJaWm5huGPT-4要来了？-推测多模态模型的能力：https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html微软Kosmos-1模型论文：https://arxiv.org/abs/2302.14045谷歌PaLM-E模型介绍：https://palm-e.github.io/GPT-4可能具备的能力：-引入了视觉智商测试集，用于诊断MLLM的非语言推理能力。-无OCR阅读理解：输入屏幕截图、扫描文档、街道标志或任何包含文本像素。直接推断内容而不需要明确使用OCR。这对于在多媒体网页上解锁AI应用程序或来自真实世界摄像头的“野外文字”非常有用。-多模态聊天：关于一张图片进行对话。甚至可以在中途提供“后续”图像。-广泛的视觉理解能力，如字幕、视觉问答、物体检测、场景布局、常识推理等。-音频和语音识别（？）：这个没有在Kosmos-1论文中提到，但Whisper已经成为OpenAIAPI，并且应该很容易集成。产品推荐：Fini-将知识库转换为聊天机器人：https://www.usefini.com/OpenGPT-快速创建你自己的AI应用：https://open-gpt.app/OpenAITranslator-基于ChatGPT的桌面翻译工具：https://github.com/yetone/openai-translatorLogoscapes-将你的LOGO融入到现实照片中：https://logoscapes.ai/Invideo-快速将你的想法制作为视频：https://invideo.io/ai/Poe-现在体验最好的聊天机器人产品：https://poe.com/

在Telegram中查看

相关推荐

AIGC Weekly #14更新了，上周又是疯狂的一周，本期主要介绍了我如何用GPT-4帮忙构建自动化程序，ChatGPT插件

AIGCWeekly#14更新了，上周又是疯狂的一周，本期主要介绍了我如何用GPT-4帮忙构建自动化程序，ChatGPT插件系统等其他动态、一堆非常值得阅读的内容。下面是上周一些行业动态和产品推荐，更多详细的内容可以去图里的竹白查看：https://op7418.zhubai.love/posts/2252030503228076032本周精选：我在GPT-4的帮助下创建了一个自动信息收集机器人：https://mp.weixin.qq.com/s?__biz=MzU0MDk3NTUxMA%3D%3D&mid=2247483868&idx=1&sn=82ef05f07a6a8a63e434b5bff69c5fbb&chksm=fb304925cc47c0337f4127e9199b0e6907dff0c01f2912a9f041e737ff25d738787ef7d52ad3&token=1127584867&lang=zh_CN#rdOpenAI发布ChatGPT插件系统：https://openai.com/blog/chatgpt-plugins这里加入等待列表：https://openai.com/waitlist/plugins这篇文章详细测试了ChatGPT插件系统的能力：https://andrewmayneblog.wordpress.com/2023/03/23/chatgpt-code-interpreter-magic/lencx写的插件开发指南：https://mp.weixin.qq.com/s/AmNkiLOqJo7tEJZPX34oegWolfram插件使ChatGPT的数学能力达到了匪夷所思的地步：https://writings.stephenwolfram.com/2023/03/chatgpt-gets-its-wolfram-superpowers/Github发布GitHubCopilotX：https://github.blog/2023-03-22-github-copilot-x-the-ai-powered-developer-experience/CopilotChat：不仅仅是一个聊天窗口。它可以识别开发人员键入的代码、显示的错误消息，并将其深度嵌入到IDE中。

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称：“PaLM2在逻辑和推理方面进行了广泛的训练，具有极强的逻辑和推理能力。同时，它还接受了多语言文本训练，支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫（SlavPetrov）称，最新的PaLM2在一系列基于文本的任务上表现更好，包括推理、编码和翻译等。他说：“与PaLM1相比，PaLM2有了显著提升。”对于PaLM2，谷歌工程师在一份研究论文中称，该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样，PaLM2与其说是一款单一产品，不如说是一系列产品。它拥有不同的版本，可部署在消费者和企业环境中。确切而言，PaLM2分为四种规格，从小到大依次为Gecko、Otter、Bison和Unicorn，依据特定领域的数据进行了微调，以执行企业客户的特定任务。其中，体积最小的Gecko可以在手机上运行，每秒可处理20个Token，大约相当于16或17个单词。谷歌还称，PaLM2已被用于支持自家的25项功能和产品，其中包括AI聊天机器人Bard，以及谷歌文档、幻灯片和工作表等。...PC版：https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版：https://m.cnbeta.com.tw/view/1359045.htm

AIGC Weekly #18更新了，本期主要介绍了Mini GPT-4等开源项目以及一些传统互联网公司的AI尝试动态和其他一堆

AIGCWeekly#18更新了，本期主要介绍了MiniGPT-4等开源项目以及一些传统互联网公司的AI尝试动态和其他一堆非常值得阅读的内容。下面是上周一些行业动态和产品推荐，更多详细的内容可以去图里的竹白查看：https://op7418.zhubai.love/posts/2262249464033574912本周精选：上周值得关注的开源项目RedPajama：一个计划创建一套领先开源模型的项目：https://www.together.xyz/blog/redpajamaMiniGPT-4：取巧的方式实现了多模态能力：https://huggingface.co/spaces/Vision-CAIR/minigpt4StableDiffusion的开发商StabilityAI发布了开源大语言模型StableLM：https://t.co/as5GzLhMTo复旦训练的语言模型Moss开源了：https://github.com/OpenLMLab/MOSS一些传统互联网厂商的AI尝试RaycastAI逐步开放测试资格，这是功能介绍：https://t.co/MGhtEjidft谷歌计划构建新的搜索引擎：https://searchengineland.com/google-planning-new-search-engine-while-working-on-new-search-features-under-project-magi-395661AdobeFirefly可以通过自然语言编辑视频了：https://www.youtube.com/watch?v=30xueN12guw&t=1sWebflow推出了自己的AI能力：https://webflow.com/blog/power-of-ai产品推荐：AI论文速递：快速阅读近期AI论文：https://briefgpt.xyz/chatgptFinchat：一个金融信息的ChatGPT：https://finchat.io/VercelAIPlayground：免费使用多个语言模型进行对比：https://play.vercel.ai/r/mWjP5DtCodeamigo：利用AI学习代码：https://codeamigo.dev/

人工通用智能的火花: GPT-4 的早期实验 #文件 @qiqubaike #pdf

人工通用智能的火花:GPT-4的早期实验#文件@qiqubaike#pdf人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs)，这些模型在各种领域和任务中表现出非凡的能力，挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23]，是使用前所未有的计算和数据规模训练出来的。在本文中，我们报告了我们对GPT-4早期版本的调查，当时它还在OpenAI的积极开发中。我们认为，(这个早期版本的)GPT-4是新一批LLM的一部分(例如，与ChatGPT和谷歌的PaLM一起)，它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明，除了对语言的掌握，GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务，而不需要任何特殊的提示。此外，在所有这些任务中，GPT-4的表现都惊人地接近人类水平，而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度，我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中，我们特别强调发现它的局限性，并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战，包括可能需要追求一种超越下一个单词预测的新范式。最后，我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。

华科大发布AI大模型猴子：部分超越GPT-4

华科大发布AI大模型猴子：部分超越GPT-4官方介绍称，在18个数据集上的实验中，华科大Monkey模型表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的LLAVA、Google的PALM-E、阿里的Mplug-owl等。此外，Monkey在文本密集的问答任务中显示出显著的优势，甚至在某些样本上超越了业界公认的领先者GPT-4V。Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。另一亮点是能够处理分辨率高达1344x896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。据悉，目前业内能处理的图片最大分辨率为448×448像素。值得一提的是，该团队已将Monkey代码在全球最大的代码托管服务平台GitHub上开源。...PC版：https://www.cnbeta.com.tw/articles/soft/1403903.htm手机版：https://m.cnbeta.com.tw/view/1403903.htm

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明，LLaVA展示了令人印象深刻的多模型聊天能力，有时在看不见的图像/指令上表现出多模态GPT-4的行为，并且与合成多模态指令跟随数据集上的GPT-4相比，相对分数达到了85.1%。当在ScienceQA上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%，这个准确率颇高。因此，我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人