百度在 GitHub 开源了一整套 NLP 技术解决方案,通过结合 PaddleNLP 和 RocketQA 两个 GitHub

百度在 GitHub 开源了一整套 NLP 技术解决方案,通过结合 PaddleNLP 和 RocketQA 两个 GitHub 项目,快速实现检索、问答、情感分析等功能。 以检索方案为例, 具备了低门槛、高精度等特点,数据 + 代码 + 模型均已开源。开发者无需标注数据,也能够轻松构建一个检索系统。 而问答系统,则可以采用来实现,作为首个开源的中文端到端问答模型,该项目预置了 11 种模型,让开发者仅需 2 行命令,即可搭建自己的问答系统。 未来几天,他们将开放几场,主要讲解问答系统的技术原理、采用无监督数据快速搭建检索系统、观点抽取与情感分类模型介绍等内容。 直播时间:12.28 - 12.30 ,每晚 20:15-21:30

相关推荐

封面图片

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程,包括:监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。 并且,技术团队以 LLaMA 为基础预训练模型,正式推出了 ColossalChat,这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。 该项目包括但不限于以下功能: - Demo:可直接在线体验模型效果,无需注册或 waitinglist; - 训练代码:开源完整 RLHF 训练代码,已开源至含 7B 和 13B 两种模型; - 数据集:开源 104K 中、英双语数据集; - 推理部署:4bit 量化推理 70 亿参数模型仅需 4GB 显存; - 模型权重:仅需单台服务器少量算力即可快速复现; - 更大规模模型、数据集、其他优化等将保持高速迭代添加。 目前,相关代码已开源至 GitHub,感兴趣的同学可以看下。 项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。 |||||

封面图片

百度在 GitHub 开源了一个轻量级图像识别系统:PP-ShiTu,主要解决品类更新频率高、目标区分难度大、算法复杂速度慢等问

百度在 GitHub 开源了一个轻量级图像识别系统:PP-ShiTu,主要解决品类更新频率高、目标区分难度大、算法复杂速度慢等问题。 该系统综合了目标检测、图像分类、度量学习、图像检索等多重技术,在 CPU 上仅需 0.2s,即可轻松识别十万类,且十分简单易用。 针对此项目,开发者们将在本周开放几场公开课,主讲图像识别系统概览、SOTA 模型炼丹秘诀、商品识别痛点剖析、产业应用案例及落地方案分享等内容。 直播时间:11.2 -11.5,每晚 20:15-21:30

封面图片

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。 近日,Colossal-AI 团队充分利用了 LLaMA-2 的基础能力,采用高效的训练方法,仅使用约 8.5B token 数据、15 小时、数千元的训练成本,成功构建了性能卓越的中文 LLaMA-2,在多个评测榜单性能优越。 相较于原始 LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练 SOTA 模型媲美。 该项目在 GitHub 完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架 ColossalEval,以实现低成本的可复现性。 不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。 |

封面图片

简单好用的开源全文检索解决方案: 搭建方便,API友好,自带后台界面。

简单好用的开源全文检索解决方案: 搭建方便,API友好,自带后台界面。 特点 ·极速搜索体验(<50毫秒) ·支持全文搜索 ·容忍错别字(理解错别字和拼写错误) ·多面搜索和过滤 ·支持汉字(汉字) ·支持同义词 ·易于安装、部署和维护 ·可返回整个文档 ·高度可定制 ·支持RESTful API

封面图片

百度技术团队在 GitHub 开源的一套丰富且实用的 #OCR 工具库:,可帮助开发者快速集成 OCR 功能。

百度技术团队在 GitHub 开源的一套丰富且实用的 #OCR 工具库:,可帮助开发者快速集成 OCR 功能。 近期该项目发布了功能更新,主要如下: - 优化了超轻量 OCR 系统 PP-OCR 效果; - 新增表格文字、不规则文字等复杂 OCR 任务的标注工具; - 打通 22 种 OCR 不同训练部署软硬件环境与方式; - 发布首本交互式 OCR 全栈电子书《动手学 OCR》。 针对此项目,开发者将开放 3 场公开课,主讲 OCR 技术解析、AI 模型训练部署实践、OCR 技术产业应用案例、落地方案分享等内容。 直播时间:5.11 - 5.13,每晚 20:30

封面图片

百度技术团队在开源了一个 #NLP 工具包:

百度技术团队在开源了一个 #NLP 工具包: 具备易用的文本领域 API, 多场景的应用示例、和高性能分布式训练三大特点,旨在提升开发者在文本领域的开发效率,并提供丰富的 NLP 应用示例。 对该开源项目有兴趣的同学,可参加他们在本周的几场公开课,主要讲解多场景 NLP 任务流设计、快速提升模型效果、机器翻译项目实践等内容。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人