Generate：litellm的国内版。允许用户通过统一的 api 访问多平台的生成式模型。

：litellm的国内版。允许用户通过统一的api访问多平台的生成式模型。多模态，支持文本生成，多模态文本生成，结构体生成，图像生成，语音生成...跨平台，支持OpenAI，Azure，Minimax，智谱，月之暗面，文心一言在内的国内外10+平台OneAPI，统一了不同平台的消息格式，推理参数，接口封装，返回解析，让用户无需关心不同平台的差异异步，流式和并发，提供流式调用，非流式调用，同步调用，异步调用，异步批量并发调用，适配不同的应用场景自带电池，提供chainlitUI，输入检查，参数检查，计费，速率控制，Agent,Toolcall等轻量，最小化依赖，不同平台的请求和鉴权逻辑均为原生内置功能高质量代码，100%typehints，pylancestrict,rufflint&format,testcoverage>85%..

在Telegram中查看

相关推荐

微软提出的TaskMatrix.AI，想通过大模型和数百万个API来完成任务还是有意思的。

微软提出的TaskMatrix.AI，想通过大模型和数百万个API来完成任务还是有意思的。TaskMatrix.AI:CompletingTasksbyConnectingFoundationModelswithMillionsofAPIs链接：https://arxiv.org/pdf/2303.16434.pdf论文中提出的这个TaskMatrix.AI主要是想理解多模态的输入，然后生成代码，代码里面调用API来完成任务。它有统一格式的API平台和任务库，方便开发人员定制模型，也方便大模型调用。TaskMatrix.AI拥有终身学习能力，可以通过学习组合模型和API来完成新任务，而且这是可以解释的。关键组件有四个：-多模态对话模型-API平台-APISelector-APIExecutor论文中还使用RLHF来提高多模态模型和APISelector的能力。能够完成的任务：-视觉任务，比如图像编辑，图像问答等-多模态长内容生成，比如生成图文-自动化比如：操控手机，浏览器-访问云服务比如:发现新API-控制物联网设备比如：机器人，家用智能设备我的想法，大模型或者多模态模型出现确实提高了以前对话系统的能力，以前智能音箱大战畅想的很多东西都可以拿出来继续做。

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT：一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力，PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合（如上图所示）。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐，PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本，PandaGPT只更新了以下模块：在ImageBind的编码结果上新增一个线性投影矩阵，将ImageBind生成的表示转换后插入到Vicuna的输入序列中；在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是，训练过程中仅对模型输出对应部分进行权重更新，不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是，目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练，但是继承了ImageBind编码器的六种模态理解能力（图像/视频、文本、音频、深度度、热量图和IMU）和它们之间的对齐属性，从而具备在所有模态之间跨模态能力。在实验中，作者展示了PandaGPT对不同模态的理解能力，包括基于图像/视频的问答，基于图像/视频的创意写作，基于视觉和听觉信息的推理等等，下面是一些例子：图像：音频：视频：与其他多模态语言模型相比，PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频：图像+音频：总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力，但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力，例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示，导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究，如跨模态注意力机制，可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中，即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷，包括幻觉、毒性和刻板印象。最后，作者们强调，PandaGPT仅仅是一个研究原型，暂时还不足以直接应用于生产环境。...PC版：https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版：https://m.cnbeta.com.tw/view/1363375.htm

商汤自研大模型生成图片涉嫌抄袭？公司回应称也提供第三方社区开源模型

商汤自研大模型生成图片涉嫌抄袭？公司回应称也提供第三方社区开源模型据了解，在现场演示中，该模型底部有显示civitai的文字注释。据此前报道，4月10日，商汤科技正式发布“日日新SenseNova”大模型体系，以及自研的中文语言大模型应用平台“商量”（SenseChat），参数量达千亿，可实现文本生成、图像生成、多模态内容生成等能力与场景应用。超10亿参数自研文生图生成模型“秒画”，支持二次元等多种生成风格。单卡A100支持，2秒生成1张512K分辨率的图片。用户可基于单卡A100自训练。基于平台发布的模型，可设置toB服务API（应用程序编程接口），结合商汤大算力对外提供服务。...PC版：https://www.cnbeta.com.tw/articles/soft/1354371.htm手机版：https://m.cnbeta.com.tw/view/1354371.htm

苹果推出300亿参数多模态大模型全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日，苹果公司研发团队发布了一篇论文《MM1：Methods，Analysis&InsightsfromMultimodalLLMPre-training》，首次公布了多模态大模型MM1，展示了该公司在AI方面的进展与实力。据悉，MM1最高参数量为300亿，该模型支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验，找出影响大模型表现的关键因素。有趣的是，图像分辨率和图像标签数量比视觉语言连接器的影响更大，不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性，将大规模预训练与战略性数据选择相结合，以增强模型的学习能力。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理，使得少数样本的思维链提示成为可能。然而，目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，虽然MM1可能还不是绝对的领导者，但它仍然是苹果在AI方面的一次重大飞跃。与此同时，苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长，这是实现设备上高效处理的关键因素。收购完成后，DarwinAI的网站和社交媒体账户已悄然下线。据悉，数十名DarwinAI员工已经加入了苹果的AI部门，作为交易的一部分，滑铁卢大学的AI研究员AlexanderWong已加入苹果，担任AI团队的总监。...PC版：https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版：https://m.cnbeta.com.tw/view/1424021.htm

API for Open LLMs：开源大模型的统一后端接口，支持多种开源大模型

：开源大模型的统一后端接口，支持多种开源大模型该项目为开源大模型的推理实现统一的接口接口，与OpenAI响应保持一致，具有以下特性：以OpenAIChatGPTAPI这样的方式调用开源分布式大模型支持流式响应，实现打印机效果实现文本嵌入模型，为文档知识问答提供支持支持大规模语言模型开发工具langchain的广泛功能要简单的修改环境变量即可将开源模型作为chatgpt的替代模型，为大众应用提供反馈支持支持加载经过自行训练的lora模型

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告，披露了 SD3 的更多

StabilityAI发布了他们最强的图片生成模型StableDiffusion3的技术报告，披露了SD3的更多细节。据他们所说，SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型，是目前最强的图片生成模型。技术报告要点如下：◆根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourneyv6和Ideogramv1。◆提出了新的多模态扩散Transformer(MultimodalDiffusionTransformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。◆SD38B大小的模型可以在GTX409024G显存上运行。◆SD3将发布多个参数规模不等的模型方便在消费级硬件上运行，参数规模从800M到8B。◆SD3架构以DiffusionTransformer(简称"DiT",参见Peebles&Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。◆通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。◆SD3采用了矫正流(RectifiedFlow,简称RF)的公式(Liuetal.,2022;Albergo&Vanden-Eijnden,2022;Lipmanetal.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。◆扩展矫正流Transformer模型：使用重新加权的RF公式和MMDiT主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从15个。Transformer块(4.5亿参数)到38个块(80亿参数)不等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人