pycorrector: 中文文本纠错工具。支持音似、形似、语法错误纠正,python3开发。重点解决其中的"音似、形字、语

pycorrector:中文文本纠错工具。支持中文音似、形似、语法错误纠正,python3开发。重点解决其中的"音似、形字、语法、专名错误"等类型。pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。新增了ChatGLM3/LLaMA2等GPT模型用于中文文本纠错,发布了基于拼写和语法纠错模型;重写了DeepContext、ConvSeq2Seq、T5等模型的实现。详见#工具

相关推荐

封面图片

pycorrector:中文文本纠错工具。支持音似、形似、语法错误纠正,python3开发。pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。​​​#工具

封面图片

推动规范表达,抖音测试新功能“发文助手”

推动规范表达,抖音测试新功能“发文助手”近日,抖音测试新功能“发文助手”,针对用户发布内容的不规范表达进行提醒。目前,该功能先期开放给粉丝10万以上的创作者测试使用,后续将逐步优化,开放给更多用户。抖音表示,将从源头开始,利用产品能力,切实服务用户使用规范表达。据悉,此次上线的“发文助手”功能将会对用户发布内容中的错别字、错误语法、不规范用词等进行检测和提示,使用场景包括标题文字、画面自定义文字、评论文本等。具体而言,当用户在抖音编辑文字,准备结合音视频发布时,模型会对用户输入的文字进行自动排查,一旦分析到输入的内容可能存在不规范表达,则以红色下划线形式进行提醒。当用户将指示箭头移至该处,系统会自动在该词下方提示可能正确、规范的文字。比如当用户输入“啵啵间”则会在下方以绿色文字提示“直播间”、输入“蕞好”则会提示“最好”。如果系统分析有误,用户只需把指示箭头移至文字“忽略”处并点击,即不再出现提醒符号。除发布前提示,用户内容发布后,系统还将针对视频进行整体检测。如发现视频中存在不规范表达,将以“作品优化提示”告知用户具体某一时段存在不规范之处及修改建议,比如“00:01的画面文字包含‘男明猩’,建议修改为‘男明星’”。事实上,不规范表达所产生的问题已被各方所关注。仅以美妆产品宣传为例,已有企业因使用错别字、谐音字隐晦表达产品功效、违规宣传而被罚。目前,短视频平台也存在不规范表达现象。抖音通过日常巡查发现,超过81%的不规范用语出现在标题,15%出现在画面自定义文本。其中,一部分原因是由于个别用户笔误,或跟风蹭热,还有一部分原因则是由于部分用户误解、误传平台规则,误以为一些正常词语是所谓的“敏感词”而改换说法。抖音安全治理相关负责人表示,正常的词语使用不会被审核、处罚,平台仅在其被用作传播色情低俗、违规引流交易、虚假宣传等违法违规行为时加以管理。抖音一直倡导大家规范表达、正确使用语言文字。此前,平台已分两批梳理并公布了100个被误解且高频使用的词语。未来,平台还将持续总结公布,与广大用户沟通,增进了解。“此次功能上线,一方面是从源头治理不规范表达,同时也体现了抖音规范表达的决心”,抖音安全治理相关负责人表示,平台将持续优化产品能力建设,“发文助手”功能将对更多内容进行检测提醒,更好服务用户。PC版:https://www.cnbeta.com/articles/soft/1307281.htm手机版:https://m.cnbeta.com/view/1307281.htm

封面图片

推动规范表达 抖音测试新功能“发文助手”

推动规范表达抖音测试新功能“发文助手”8月22日消息,近日,抖音测试新功能“发文助手”,针对用户发布内容的不规范表达进行提醒。目前,该功能先期开放给粉丝10万以上的创作者测试使用,后续将逐步优化,开放给更多用户。抖音表示,将从源头开始,利用产品能力,切实服务用户使用规范表达。据悉,此次上线的“发文助手”功能将会对用户发布内容中的错别字、错误语法、不规范用词等进行检测和提示,使用场景包括标题文字、画面自定义文字、评论文本等。具体而言,当用户在抖音编辑文字,准备结合音视频发布时,模型会对用户输入的文字进行自动排查,一旦分析到输入的内容可能存在不规范表达,则以红色下划线形式进行提醒。当用户将指示箭头移至该处,系统会自动在该词下方提示可能正确、规范的文字。比如当用户输入“啵啵间”则会在下方以绿色文字提示“直播间”、输入“蕞好”则会提示“最好”。如果系统分析有误,用户只需把指示箭头移至文字“忽略”处并点击,即不再出现提醒符号。除发布前提示,用户内容发布后,系统还将针对视频进行整体检测。如发现视频中存在不规范表达,将以“作品优化提示”告知用户具体某一时段存在不规范之处及修改建议,比如“00:01的画面文字包含‘男明猩’,建议修改为‘男明星’”。事实上,不规范表达所产生的问题已被各方所关注。仅以美妆产品宣传为例,已有企业因使用错别字、谐音字隐晦表达产品功效、违规宣传而被罚。目前,短视频平台也存在不规范表达现象。抖音通过日常巡查发现,超过81%的不规范用语出现在标题,15%出现在画面自定义文本。其中,一部分原因是由于个别用户笔误,或跟风蹭热,还有一部分原因则是由于部分用户误解、误传平台规则,误以为一些正常词语是所谓的“敏感词”而改换说法。抖音安全治理相关负责人表示,正常的词语使用不会被审核、处罚,平台仅在其被用作传播色情低俗、违规引流交易、虚假宣传等违法违规行为时加以管理。抖音一直倡导大家规范表达、正确使用语言文字。此前,平台已分两批梳理并公布了100个被误解且高频使用的词语。未来,平台还将持续总结公布,与广大用户沟通,增进了解。“此次功能上线,一方面是从源头治理不规范表达,同时也体现了抖音规范表达的决心”,抖音安全治理相关负责人表示,平台将持续优化产品能力建设,“发文助手”功能将对更多内容进行检测提醒,更好服务用户。PC版:https://www.cnbeta.com/articles/soft/1307295.htm手机版:https://m.cnbeta.com/view/1307295.htm

封面图片

ChatGPT强势加入芯片设计:不用学专业硬件描述语言 说人话就行

ChatGPT强势加入芯片设计:不用学专业硬件描述语言说人话就行在ChatGPT的帮助下,他们不仅设计出CPU上的一个组件,甚至还通过了有效性验证环节。这个组件主要负责创造出一种基于八位累加器的微处理器架构的逻辑。而累加器本质上是寄存器(存储器),是专门存放算术或逻辑运算的一个操作数和存储运算结果的。而这是CPU运作中不可或缺的一部分。所以,还有什么是大语言模型不能做的?有网友表示:芯片设计的部分流程实现自动化无疑是个好消息。也有网友表现出对在芯片设计中使用AI编写HDL的担忧:ChatGPT对芯片设计干了啥?通常,设计和制造芯片的过程中会经历几个阶段。其中一个阶段是用硬件描述语言(HDL)(例如Verilog)描述芯片内不同部件的实际几何形状、密度和整体布局。在此前,作为一个极其专业化和复杂的领域,HDL编写一直是一项相对罕见且非常难以掌握的工作。研究团队成员之一、也是研究助理教授的HammondPearce博士更是认为:硬件描述语言的最大挑战就是没有多少人知道如何编写它们,很难成为这方面的专家。这也就意味着,即使是最好的工程师也还是经常需要用这种语言做一些琐碎的事情。而ChatGPT作为一种模式识别器,可以在各种类型的语言中转换自如,这就可以帮助工程师们跳过HDL阶段。△使用LLM创建IC(集成电路)的设计流程。在这项研究中,研究人员分别使用LLM对八个具有代表性的硬件设计示例进行了研究。工程师与LLM之间实时来回交互,将纯英文文本逐步转化为Verilog(HDL)的等效代码。其中一位硬件工程师与LLMs共同设计了一种新颖的基于八位累加器的微处理器体系结构。他们将这些基准测试和处理器发送到Skywater130纳米Shuttle进行流片(tapeout)。这个过程中,研究人员评估了ChatGPT-4、ChatGPT-3.5、Bard、HuggingChat四个不同LLM创建硬件设计的Verilog能力:此外,研究人员还针对8位移位寄存器进行了基准测试。告诉大模型正在尝试为一个“测试名称”创建一个Verilog模型。然后提供规范说明,定义输入和输出端口以及其他所需的具体信息。最后询问他该如何编写一个满足这些规范的设计。△8位移位寄存器的设计提示下面是不同大模型给出的设计方案:△左图是ChatGPT-4的八位移位寄存器设计,右图是ChatGPT-3.5△左图是Bard(第4行的“红色”输入过宽),右图是HuggingChat(截断,格式化)如上图所示,虽然ChatGPT都能够满足规格要求并开始进行设计流程,但Bard和HuggingChat都未能满足规格要求的初始标准。研究人员又基于Bard和HuggingChat的初始提示,让它们重新生成了五次回答,但两者还是都失败了。Bard一直无法满足给定的设计规格要求,而HuggingChat的Verilog输出在模块定义之后就不符合语法规范。鉴于Bard和HuggingChat在初始的挑战基准测试中表现不佳,研究人员决定后续完整测试仅对ChatGPT-4和ChatGPT-3.5进行。与此同时,顺便让大模型进行了Testbench(测试台)的设计:你能为这个设计编写一个Verilog测试台吗?测试台应该具备自检功能,并且能够与iverilog一起用于仿真和验证。如果测试用例失败,测试台应该能够提供足够的信息,以便找到并解决错误。最终结果表明ChatGPT-4的表现较为出色。大多数基准测试都通过了,并且大部分只需要工具反馈即可。与创建可运行设计相比,ChatGPT-4在创建可运行的测试台上遇到了更多困难,往往还是需要人类的反馈意见。而与ChatGPT-4相比,ChatGPT-3.5的表现明显较差,大多数基准测试都失败了,而那些通过测试台的对话大多数也不符合规范。与ChatGPT-4相比,ChatGPT-3.5每次对话和基准测试之间会出现各种各样的问题,在设计和测试台方面需要更频繁地进行修正。ChatGPT是芯片设计中的“力量倍增器”随着大语言模型(LLM)的继续发展,未来从构想到功能设计,LLM或许都可以轻松实现。△研究人员用ChatGPT-4设计的基于累加器的数据通路(图是人绘制的),控制信号用虚线表示研究人员认为:尽管我们强调了模型的单步性能(即一步完成设计),但对于硬件应用来说,让它们以“共同设计师”的身份加入,可能会表现得更好。当与经验丰富的工程师协同工作时,它们可以成为一种“力量倍增器”。工程师可以根据模型提供的“初版设计方案”,进行微调和快速迭代。HammondPearce博士说道:这项研究成果是我们认为首次完全由人工智能生成的硬件描述语言(HDL)转化为物理芯片的案例。一些人工智能模型,比如OpenAI的ChatGPT和Google的Bard,可以生成不同编程语言的软件代码,但它们在硬件设计领域的应用尚未被广泛研究。而这项研究表明,人工智能在硬件制造方面也具有潜力,尤其是在对话式应用中,通过反复交流可以完善设计。并且,这样一来HDL编写过程中人为引起的错误就会减少,从而可缩短设计时间和上市时间,也可允许更多创造性的设计。不知一些HDL工程专家听到这里是否会略感紧张。研究人员认为如果这个过程能够实现自动化,不仅可以加快现在的工作速度,还可以减轻人为瓶颈。但是,完全依靠类似于ChatGPT这种大模型或者依赖电力运行的软件机器也存在一定的风险。用于芯片设计的LLM在训练阶段也存在难解的黑盒子等一系列问题。...PC版:https://www.cnbeta.com.tw/articles/soft/1366363.htm手机版:https://m.cnbeta.com.tw/view/1366363.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人