百度在 GitHub 开源了一整套 NLP 技术解决方案，通过结合 PaddleNLP 和 RocketQA 两个 GitHub

百度在 GitHub 开源了一整套 NLP 技术解决方案，通过结合 PaddleNLP 和 RocketQA 两个 GitHub 项目，快速实现检索、问答、情感分析等功能。以检索方案为例，具备了低门槛、高精度等特点，数据 + 代码 + 模型均已开源。开发者无需标注数据，也能够轻松构建一个检索系统。而问答系统，则可以采用来实现，作为首个开源的中文端到端问答模型，该项目预置了 11 种模型，让开发者仅需 2 行命令，即可搭建自己的问答系统。未来几天，他们将开放几场，主要讲解问答系统的技术原理、采用无监督数据快速搭建检索系统、观点抽取与情感分类模型介绍等内容。直播时间：12.28 - 12.30 ，每晚 20:15-21:30

在Telegram中查看

相关推荐

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程，包括：监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。并且，技术团队以 LLaMA 为基础预训练模型，正式推出了 ColossalChat，这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。该项目包括但不限于以下功能： - Demo：可直接在线体验模型效果，无需注册或 waitinglist； - 训练代码：开源完整 RLHF 训练代码，已开源至含 7B 和 13B 两种模型； - 数据集：开源 104K 中、英双语数据集； - 推理部署：4bit 量化推理 70 亿参数模型仅需 4GB 显存； - 模型权重：仅需单台服务器少量算力即可快速复现； - 更大规模模型、数据集、其他优化等将保持高速迭代添加。目前，相关代码已开源至 GitHub，感兴趣的同学可以看下。项目还有提供完整的中文教程，进一步降低学习门槛，让大家能更快上手开发。 |||||

一个比较不错的中文大模型解决方案，代码完全开源，无商用限制。

一个比较不错的中文大模型解决方案，代码完全开源，无商用限制。近日，Colossal-AI 团队充分利用了 LLaMA-2 的基础能力，采用高效的训练方法，仅使用约 8.5B token 数据、15 小时、数千元的训练成本，成功构建了性能卓越的中文 LLaMA-2，在多个评测榜单性能优越。相较于原始 LLaMA-2，在成功提升中文能力的基础上，进一步提升其英文能力，性能可与开源社区同规模预训练 SOTA 模型媲美。该项目在 GitHub 完全开源了全套训练流程、代码及权重，无商用限制，并提供了一个完整的评估体系框架 ColossalEval，以实现低成本的可复现性。不仅如此，相关方案还可迁移应用到任意垂类领域，以及从头预训练大模型的低成本构建。 |

百度在 GitHub 开源了一个轻量级图像识别系统：PP-ShiTu，主要解决品类更新频率高、目标区分难度大、算法复杂速度慢等问

百度在 GitHub 开源了一个轻量级图像识别系统：PP-ShiTu，主要解决品类更新频率高、目标区分难度大、算法复杂速度慢等问题。该系统综合了目标检测、图像分类、度量学习、图像检索等多重技术，在 CPU 上仅需 0.2s，即可轻松识别十万类，且十分简单易用。针对此项目，开发者们将在本周开放几场公开课，主讲图像识别系统概览、SOTA 模型炼丹秘诀、商品识别痛点剖析、产业应用案例及落地方案分享等内容。直播时间：11.2 -11.5，每晚 20:15-21:30

简单好用的开源全文检索解决方案：搭建方便，API友好，自带后台界面。

简单好用的开源全文检索解决方案：搭建方便，API友好，自带后台界面。特点 ·极速搜索体验（<50毫秒） ·支持全文搜索 ·容忍错别字（理解错别字和拼写错误） ·多面搜索和过滤 ·支持汉字（汉字） ·支持同义词 ·易于安装、部署和维护 ·可返回整个文档 ·高度可定制 ·支持RESTful API

百度技术团队在开源了一个 #NLP 工具包：

百度技术团队在开源了一个 #NLP 工具包：具备易用的文本领域 API，多场景的应用示例、和高性能分布式训练三大特点，旨在提升开发者在文本领域的开发效率，并提供丰富的 NLP 应用示例。对该开源项目有兴趣的同学，可参加他们在本周的几场公开课，主要讲解多场景 NLP 任务流设计、快速提升模型效果、机器翻译项目实践等内容。

是字节跳动提供的开源解决方案，提供从数据到呈现的全流程解决方案，以“视觉讲故事”和“智能”为核心发展方向。该解决方案由VChar

是字节跳动提供的开源解决方案，提供从数据到呈现的全流程解决方案，以“视觉讲故事”和“智能”为核心发展方向。该解决方案由VChart、VTable和VGrammar 等组件组成，支持视觉叙事能力。虽然每个组件都提供用户友好的界面，但其目标是允许用户在典型场景中无需编码即可生成图表和叙述，从而不断降低学习曲线和复杂性。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人