Gmail中部署的新矢量算法将大幅度提高垃圾和钓鱼邮件的识别率

Gmail中部署的新矢量算法将大幅度提高垃圾和钓鱼邮件的识别率Google最近在GoogleColab上开源了一个名为RETVec的新型多语言文本矢量化器,这个矢量化器已经部署在Gmail上,用来提升垃圾邮件和钓鱼邮件的识别率,同时降低误报率。为什么要训练这样一种模型呢?因为Gmail每天收发的邮件都在千万级别,如果包含各类垃圾邮件的话可能有几十亿,而垃圾邮件制造者会对Google的检测系统进行规避,例如使用同形字。根据Google自己的统计,将RETVec应用到Gmail后,垃圾邮件检测率比基准提高38%、误报率降低19.4%、张量处理单元(TPU)使用率降低了83%。——

相关推荐

封面图片

Gmail中部署的新矢量算法将大幅度提高垃圾和钓鱼邮件的识别率https://www.bannedbook.org/bnews/

封面图片

Google正在进行重大改动以减少Gmail垃圾邮件

Google公司周二表示,将加大垃圾邮件发送者向Gmail用户发送信息的难度。该公司表示,它将要求每天向Gmail用户发送超过5000封邮件的邮件发送者在邮件中提供一键取消订阅按钮。该公司还将要求他们对自己的电子邮件地址进行认证,对系统进行配置,以证明他们拥有自己的域名,并且没有欺骗IP地址。Alphabet旗下的Google公司表示,如果发件人的电子邮件经常被标记为垃圾邮件,而且根据Google的"邮件管理员工具"(PostmasterTools)的测量,其垃圾邮件发送率低于0.3%的"明确垃圾邮件发送率阈值",那么Google可能不会向这些发件人发送邮件。Google表示,它已与雅虎签约,要求雅虎做出同样的改变,这些改变将于2024年2月生效。标签:#Google#Gmail频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

Gmail的AI垃圾邮件检测机制完成多年来最大防御升级 RETVec被引入用于识别特殊字符

Gmail的AI垃圾邮件检测机制完成多年来最大防御升级RETVec被引入用于识别特殊字符如果你想了解"对抗性文本处理"是什么样子,下面的邮件就是我的垃圾邮件文件夹中的内容:个人的经验是,在今年上半年,这些邮件曾经是个大问题,我的收件箱里经常出现这样的邮件。不过,这次RETVec技术升级似乎确实起了作用,因为在过去几个月里,我完全没有遇到过这样的邮件。像这样的邮件很难分类,因为任何垃圾邮件过滤器都可能会拦截一封写着"恭喜您!您的中奖账户余额为1,000美元",但这封邮件的实际内容并非如此。这里的大部分字母都是"同音字"--通过深入研究Unicode标准的无穷无尽的深度,你可以找到一些晦涩难懂的字符,它们看起来像是普通拉丁字母的一部分,但实际上却不是。例如,主题"Check_Your_Account"被奇怪地加粗,不是因为它有加粗的样式,而是因为它使用了Unicode字形,如"数学粗体大写C"。这是一个数学符号,在人们看来恰好像字母"C",但进行垃圾邮件过滤的机器人却准确地将其视为一个数学符号,而不理解其英语含义。你越仔细看这样的邮件,情况就越糟糕:"CONGRATULATIONS"中的"O"字符被一个0取代,"Jackpot"中的下划线字母非常奇怪,甚至在Unicode搜索中都找不到,大量空格被换成了句号或下划线。结果,垃圾邮件过滤器看到这些乱七八糟的邮件就缴械投降了。Google说,RETVec是来拯救我们的:"RETVec经过训练,能够抵御字符级操作,包括插入、删除、错别字、同音字、LEET替代等。RETVec模型是在新型字符编码器的基础上训练而成的,该编码器可对所有UTF-8字符和单词进行高效编码。因此,RETVec无需查找表或固定词汇量,即可在100多种语言上运行。"效率非常重要。其他使用"固定词汇量"或同音字"查找表"的方法在运行时会耗费大量资源。试想一下,如果将"祝贺"的一个或多个字符换成数字、数学符号、西里尔字母、希伯来语或表情符号,那么所有可能的拼写和拼写错误都会出现在一个列表中,而这个列表几乎是无穷无尽的。Google表示,RETVec的参数只有20万个,"而不是数百万个",因此,虽然Google的垃圾邮件过滤云可能大到足以运行任何东西,但它却小到甚至可以在本地设备上运行。RETVec是开放源码的,Google希望它能让世界摆脱这种不同编码的同音字攻击。RETVec的工作原理似乎与人类的阅读方式很相似:它是一个机器学习TensorFlow模型,利用视觉"相似性"来识别单词的含义,而不是识别单词的实际字符内容。Google的"相似性"演示使用了相同的技术来识别猫的图片,因此将其转化为世界上最先进的光学字符识别系统听起来是可行的。显然,这种方法已经带来了很大的改进,Google表示"用RETVec代替Gmail垃圾邮件分类器之前的文本向量器,使我们的垃圾邮件检测率比基线提高了38%,误报率降低了19.4%。此外,使用RETVec还将模型的TPU使用量降低了83%,使RETVec的部署成为近年来最大的防御升级之一。"Google表示,"在过去的一年里一直在内部测试RETVec,并已将其推广到你的Gmail账户。"...PC版:https://www.cnbeta.com.tw/articles/soft/1402073.htm手机版:https://m.cnbeta.com.tw/view/1402073.htm

封面图片

Gmail 通过要求“一键取消”批量发件人的订阅来瞄准垃圾邮件

Gmail通过要求“一键取消”批量发件人的订阅来瞄准垃圾邮件为了减少Gmail用户收到的垃圾邮件,谷歌明年将针对批量邮件发送者制定新的要求,例如直接取消订阅。批量邮件者被归类为“一天内向Gmail地址发送超过5,000封邮件”的发件人。这些商业电子邮件必须在邮件正文中提供清晰可见的一键退订链接,并在两天内处理退订请求。Gmail还实施了“明确的垃圾邮件率阈值,发件人必须保持在该阈值以下,以确保Gmail的收件人不会被大量不想要的邮件轰炸。”具体而言,这指的是Gmail的垃圾邮件低于0.3%,谷歌称这一政策举措是“行业首创”。谷歌正在与雅虎等合作伙伴合作,使这些措施成为行业标准,这些新要求将在2024年2月之前实施,批量发件人需要落实这些措施,否则可能会被Gmail的垃圾邮件过滤器标记或从收件箱中屏蔽。——

封面图片

法官驳回共和党就Gmail垃圾邮件过滤问题对谷歌提起的诉讼

法官驳回共和党就Gmail垃圾邮件过滤问题对谷歌提起的诉讼RNC援引了北卡罗来纳州立大学的一项研究,该研究发现Gmail更有可能将共和党竞选活动的电子邮件标记为垃圾邮件。去年5月,该研究的作者之一接受了《邮报》的采访,称研究结果被歪曲了。穆罕默德-沙扎德(MuhammadShahzad)指出,该研究只测试了默认的电子邮件设置--在对用户通过将一些邮件标记为垃圾邮件来表明其偏好的账户进行的测试中,"Gmail的偏见几乎消失了"。虽然美国地区法院法官丹尼尔-卡拉布雷塔(DanielCalabretta)将RNC的诉讼描述为"有争议的",但他驳回了委员会的诉讼请求,因为委员会"未能合理地指控"Google的过滤行为是恶意的"。Google声称,许多被过滤的电子邮件可能是由于用户投诉而被其垃圾邮件算法选中的,并指出RNC的域名认证问题和向订阅者频繁发送电子邮件也是其他罪魁祸首。法官还称,根据《CAN-SPAM法案》的定义,共和党的部分电子邮件可被视为"令人反感"的内容,并称Google将其定为垃圾邮件受《通信体面法案》第230条的保护。这一决定使共和党人获得了部分"修改许可,以证明Google缺乏诚意"。去年,Google为政治邮件发送者建立了一个免过滤的后门,据说RNC并没有使用这个后门。该公司今年1月表示,在要求驳回RNC诉讼的同时,将在1月关闭其后门程序。当月早些时候,联邦选举委员会驳回了共和党人对Google电子邮件过滤做法的投诉。...PC版:https://www.cnbeta.com.tw/articles/soft/1379719.htm手机版:https://m.cnbeta.com.tw/view/1379719.htm

封面图片

未来美国Gmail用户将会收到更多竞选筹款相关的电子邮件

未来美国Gmail用户将会收到更多竞选筹款相关的电子邮件由于Google开始推行新的政治过滤系统,美国地区Gmail用户在未来几天可能会在收件箱中看到更多竞选筹款相关的电子邮件。本周一,Google向国外科技媒体Axios透露,公司已启动一项有争议的新试点计划,旨在让竞选电子邮件远离垃圾邮件文件夹。PC版:https://www.cnbeta.com/articles/soft/1318211.htm手机版:https://m.cnbeta.com/view/1318211.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人