百度飞桨发布了一款 NLP 全流程自动化开发平台，用户只需进行简单拖拉拽，无需编写任何算法与代码，即可实现诸多 NLP 应用落地

百度飞桨发布了一款 NLP 全流程自动化开发平台，用户只需进行简单拖拉拽，无需编写任何算法与代码，即可实现诸多 NLP 应用落地。其中包括文本分类、文本创作、情感倾向分析、短文本相似度匹配、实体抽取、实体关系抽取、评论观点抽取等任务类型。近日，该平台已将底层「文心大模型 ERNIE」升级至 3.0，新增了海量中文数据知识储备、小样本快捷训练、任务效果平均提升至90%以上、多场景创作等特性。针对此项目，开发者们将在本周开放一场公开课，主要讲解 NLP 应用开发的常见问题及解决方案，产业应用落地实现， NLP 项目实战等内容，感兴趣的同学可以参与一下。 ||| #NLP 直播时间：本周四，晚上 20:00

在Telegram中查看

相关推荐

百度技术团队在开源了一个 #NLP 工具包：

百度技术团队在开源了一个 #NLP 工具包：具备易用的文本领域 API，多场景的应用示例、和高性能分布式训练三大特点，旨在提升开发者在文本领域的开发效率，并提供丰富的 NLP 应用示例。对该开源项目有兴趣的同学，可参加他们在本周的几场公开课，主要讲解多场景 NLP 任务流设计、快速提升模型效果、机器翻译项目实践等内容。

面向文本分析的低代码自动化工具一个开源的、低代码的、由AI驱动的自动化工具。Obsei由以下部分组成

面向文本分析的低代码自动化工具一个开源的、低代码的、由AI驱动的自动化工具。Obsei由以下部分组成从各种来源收集非结构化数据，如Twitter上的推文、Reddit上的Subreddit评论、Facebook上的页面帖子评论、App Stores评论、Google评论、Amazon评论、新闻、网站等。分析器。用各种人工智能任务分析收集的非结构化数据，如分类、情感分析、翻译、PII等。信息员。将分析的数据发送到各种目的地，如票务平台、数据存储、数据框架等，以便用户可以采取进一步的行动，并对数据进行分析。所有的观察者都可以在数据库（Sqlite、Postgres、MySQL等）中存储他们的状态，这使得Obsei适用于预定作业或无服务器应用程序。未来的方向面向文本、图像、音频、文档和视频的工作流从所有可能的私人和公共渠道收集数据将每个可能的工作流程添加到人工智能下游应用中，以实现人工认知工作流程的自动化 | #工具

一个由社区为社区构建的代码编辑器，完全为macOS编写。

一个由社区为社区构建的代码编辑器，完全为macOS编写。功能包括语法突出显示、代码完成、项目查找和替换、代码片段、终端、任务运行、调试、git集成、代码审查、扩展等。设计目标是保持为TextEdit的轻量级，但提供类似于Xcode的体验。目前还没有releases的版本。动机：使用 Mac 的开发人员应该能够在 Mac 上使用让您感觉自如的编辑器。类似的编辑器是基于 Electron 构建的。这是一个巨大的限制，因为它不能充分利用系统资源。 Electron需要一个Chromium实例来运行，即使是建立在它上面的小应用程序，这也可能意味着大量的性能损失和高内存使用；此外，整体的代码占用空间要大得多，动画效果也比较慢。更多的帧会丢失，而且像窗口大小调整这样的事情会感觉滞后。本机应用程序流畅如黄油，更有效地利用系统资源以获得更好的性能和可靠性。 Xcode提供了这种出色的原生体验，但它主要支持专为Apple平台编写的项目。有许多项目不是为Apple平台编写的，它们值得开发人员使用Xcode获得相同的macOS原生体验。这就提出了一个问题，如果存在这样的编辑器会怎样？我们认为开发人员应该获得原生体验。这导致了这个概念的产生，本项目旨在实现这一概念。 | #编辑器

：为响应古籍活化利用号召，推动大语言模型与古籍处理深度融合，以古籍智能化的研究为目的，南京农业大学国家社科基金重大项目“中国古代

：为响应古籍活化利用号召，推动大语言模型与古籍处理深度融合，以古籍智能化的研究为目的，南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组与中华书局古联公司推出了一系列古籍处理领域大语言模型：荀子古籍大语言模型。荀子系列专为古籍智能处理而设计，这一系列模型的推出将推动古籍研究与保护工作的新发展，提高中华传统文化传承的效率与质量。模型亮点：古籍智能标引，荀子模型具备强大的古籍文献标引能力，能够对古籍中的内容进行高质量主题标引，帮助研究人员快速了解文章主题。古籍信息抽取，荀子模型能够自动从古籍中抽取关键信息，如人物、事件、地点等，大大节省了研究人员的信息整理时间。诗歌生成：荀子模型还具备诗歌生成的能力，能够根据给定的主题或关键词，自动生成符合语法规则和韵律要求的古诗，为诗词爱好者提供创作灵感。古籍高质量翻译：对于那些难以理解的古籍文献，荀子模型能够提供高质量的翻译服务，帮助研究人员更好地理解原文含义。阅读理解：荀子模型能够对给出的古文文本进行分析解释，实现对古籍文本的自动阅读。词法分析：荀子模型可以完成古籍文本的自动分词和词性标注，能够有效提升语言学工作者的研究效率。自动标点：荀子大模型可以快速完成古籍文本的断句和标点，提升研究者以及业余爱好者对古籍文本的阅读体验。用户也可以根据自己的需求，使用本地的训练语料微调荀子基座模型，使得其能够在古籍下游处理任务上取得更佳的处理性能。| #古籍

OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总

OpenAI可能会推出Jarvis一样的个人助理新商标Voice Engine信息汇总尽管这是商标申请，但是Google前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情：开发一个全球最强的个人助理，接管个人设备，以Jarvis那样的形式提供服务！Voice Engine商标内容Voice Engine是OpenAI最近提交一个商标名称，其内容主要包含了语音识别和语音合成相关的内容。这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域，特别是在语音和自然语言处理技术方面。具体来说，可能提供的产品和服务包括但不限于：自动语音识别和生成软件：用于自动识别和生成语音的软件，可能在虚拟助手、智能家居设备等场景中有广泛应用。基于自然语言提示生成语音和音频输出的软件：这类软件能够根据文本、语音、视觉提示、图像或视频生成语音和音频输出，可用于各种应用，如内容创作、教育、娱乐等。注意，这不是文本转语音，而是根据文本提示生成语音结果！数字语音助手开发工具：提供用于构建数字语音助手的软件和开发工具，有助于开发者创建智能交互应用。虽然是工具，但是显然这是可以用于开发个人助理的工具！响应用户提示生成音频或语音的软件：这类软件能够根据用户的提示生成相应的音频或语音输出，可能用于互动媒体、游戏或其他应用中。这个目前在ChatGPT客户端也有了，就是用语音响应用户输入。机器学习基础的自然语言和语音处理软件：涉及使用机器学习技术进行自然语言和语音的处理、识别和分析的软件。多语言语音识别、翻译和转录软件：支持多语言的语音识别、翻译和转录功能的软件，适用于国际化应用、内容创作等场景。应用程序接口（API）软件和软件开发套件（SDKs）：提供可作为API使用的软件，可能支持开发者在各种应用和服务中集成语音和自然语言处理功能。综上所述，VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件，以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。而这其中最令人关注的应该是下面的2个内容：一个是可以配合Sora视频生成的功能，为视频配音；另一个则是作为个人助理，支持语音交互！为Sora视频配音的语音生成功能传统的语音领域的模型主要方向包括2类：一个是语音合成，即Text to speech（TTS）：将文本转成语音。另一个是自动语音识别（Auto Speech Recognition，ASR），即识别语音转成文本。但是，根据这个描述响应用户提示生成音频或语音的软件，这个能力应该是类似视频生成和图片生成那种，基于文本prompt，来生成相应的语音结果。例如，你可以给系统说，生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。在最近爆火的OpenAI的Sora演示中（OpenAI最强的视频生成大模型： OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定），所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。与Agent传言互相印证：OpenAI的Jarvis产品在前面的商标描述中提到，OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态，它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入，然后服务直接用语音回复结果。从技术角度来说，传统的语音助理应该是先通过ASR识别用户的语音，然后转成文本，GPT再根据文本生成答案，再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性！三个步骤，每个步骤准确率90%，最终的回复准确率可能只有72.9%了！如果这是一个端到端的模型（符合OpenAI当前的技术趋势），那么时延和准确性都值得期待！此外，结合此前的传言说GPT可能要接入个人本地电脑系统，那作为一个个人助手完全是没问题的。同时，Google前雇员Jonathan Chavez在前段时间也发布过一个消息，他说OpenAI在今年会推出一个全球最好的个人助理产品，就像钢铁侠中的Jarvis。Jarvis除了需要有GPT-4那种强大的语言响应能力外，还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是，它本身是为了支撑ChatGPT的功能存在的，范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理，那么意味着它可以帮助我们操作我们的电脑和手机，使用APP等。这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性：OpenAI正在开发一个全新的基于大模型的Agent产品。在这个传言中，OpenAI做的事情描述如下：OpenAI正在开发的这个Agent形式的产品，通过有效地接管用户的设备来让复杂任务被自动执行。然后，用户可以请求ChatGPT将数据从文档转移到电子表格中进行分析，或自动填写费用报告并将其输入会计软件。这类请求将触发ChatGPT来执行点击、光标移动、文本输入以及人们在使用不同应用程序时进行的其他操作。 ... PC版：手机版：

数学家利用人工智能和新型聚类算法识别新出现的COVID-19变种

数学家利用人工智能和新型聚类算法识别新出现的COVID-19变种叠加在冠状病毒插图上的 CLASSIX 聚类结果的风格化图像。资料来源：曼彻斯特大学、疾病预防控制中心/MSMI 的 Alissa Eckert；MAMS 的 Dan Higgins本周发表在《美国国家科学院院刊》（PNAS）上的这项研究可以支持传统的病毒进化追踪方法，如系统发育分析，目前这种方法需要大量的手工整理。曼彻斯特大学研究员、论文第一作者和通讯作者罗伯托-卡万齐（Roberto Cahuantzi）说："自从COVID-19出现以来，我们已经看到了多波新的变种、传播性增强、免疫反应逃避和疾病严重性增加。科学家们现在正加紧努力，以便在α、δ和Ω等这些令人担忧的新变种出现的最初阶段就将其定位。如果我们能找到一种快速有效的方法，就能更积极地采取应对措施，比如开发有针对性的疫苗，甚至有可能在变异体形成之前就将其消灭。"拟议的 COVID-19 变异识别方法步骤示意图。资料来源：曼彻斯特大学与许多其他RNA病毒一样，COVID-19 的变异率很高，而且两代之间的间隔时间很短，这意味着它的进化速度极快。这意味着识别未来可能出现问题的新毒株需要付出巨大的努力。目前，GISAID 数据库（全球共享所有流感数据倡议）提供了近 1600 万个序列，该数据库提供了流感病毒的基因组数据。从这些数据中绘制出所有 COVID-19 基因组的进化和历史，目前需要耗费大量的计算机和人力时间。所述方法实现了此类任务的自动化。研究人员只用了一到两天时间，就用一台标准的现代笔记本电脑处理了 570 万个高覆盖率序列；这是现有方法无法做到的，由于减少了资源需求，更多研究人员掌握了识别相关病原体菌株的能力。曼彻斯特大学数学科学教授托马斯-豪斯（Thomas House）说："大流行期间产生了前所未有的大量基因数据，这要求我们改进方法，对其进行彻底分析。数据仍在快速增长，但如果不显示出整理这些数据的益处，这些数据就有可能被移除或删除。""我们知道，人类专家的时间是有限的，因此我们的方法不应该完全取代人类的工作，而应该与他们并肩工作，以便更快地完成工作，并将我们的专家解放出来，从事其他重要的开发工作"。拟议方法的工作原理是通过计数将 COVID-19病毒的基因序列分解成以数字表示的较小"词"（称为 3-mers）。然后，它利用机器学习技术，根据单词模式将相似的序列分组。曼彻斯特大学应用数学教授斯特凡-居特尔（Stefan Güttel）说："与传统方法相比，我们开发的聚类算法CLASSIX对计算的要求要低得多，而且是完全可解释的，也就是说，它能对计算出的聚类提供文字和视觉上的解释"。Roberto Cahuantzi 补充说："我们的分析是一个概念验证，证明了机器学习方法作为一种预警工具的潜在用途，可用于早期发现新出现的主要变种，而无需依赖生成系统发育。虽然系统发生学仍然是了解病毒祖先的'黄金标准'，但这些机器学习方法能够以较低的计算成本容纳比当前系统发生学方法多几个数量级的序列"。编译自:ScitechDaily ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人