Gmail的AI垃圾邮件检测机制完成多年来最大防御升级 RETVec被引入用于识别特殊字符
Gmail的AI垃圾邮件检测机制完成多年来最大防御升级RETVec被引入用于识别特殊字符如果你想了解"对抗性文本处理"是什么样子,下面的邮件就是我的垃圾邮件文件夹中的内容:个人的经验是,在今年上半年,这些邮件曾经是个大问题,我的收件箱里经常出现这样的邮件。不过,这次RETVec技术升级似乎确实起了作用,因为在过去几个月里,我完全没有遇到过这样的邮件。像这样的邮件很难分类,因为任何垃圾邮件过滤器都可能会拦截一封写着"恭喜您!您的中奖账户余额为1,000美元",但这封邮件的实际内容并非如此。这里的大部分字母都是"同音字"--通过深入研究Unicode标准的无穷无尽的深度,你可以找到一些晦涩难懂的字符,它们看起来像是普通拉丁字母的一部分,但实际上却不是。例如,主题"Check_Your_Account"被奇怪地加粗,不是因为它有加粗的样式,而是因为它使用了Unicode字形,如"数学粗体大写C"。这是一个数学符号,在人们看来恰好像字母"C",但进行垃圾邮件过滤的机器人却准确地将其视为一个数学符号,而不理解其英语含义。你越仔细看这样的邮件,情况就越糟糕:"CONGRATULATIONS"中的"O"字符被一个0取代,"Jackpot"中的下划线字母非常奇怪,甚至在Unicode搜索中都找不到,大量空格被换成了句号或下划线。结果,垃圾邮件过滤器看到这些乱七八糟的邮件就缴械投降了。Google说,RETVec是来拯救我们的:"RETVec经过训练,能够抵御字符级操作,包括插入、删除、错别字、同音字、LEET替代等。RETVec模型是在新型字符编码器的基础上训练而成的,该编码器可对所有UTF-8字符和单词进行高效编码。因此,RETVec无需查找表或固定词汇量,即可在100多种语言上运行。"效率非常重要。其他使用"固定词汇量"或同音字"查找表"的方法在运行时会耗费大量资源。试想一下,如果将"祝贺"的一个或多个字符换成数字、数学符号、西里尔字母、希伯来语或表情符号,那么所有可能的拼写和拼写错误都会出现在一个列表中,而这个列表几乎是无穷无尽的。Google表示,RETVec的参数只有20万个,"而不是数百万个",因此,虽然Google的垃圾邮件过滤云可能大到足以运行任何东西,但它却小到甚至可以在本地设备上运行。RETVec是开放源码的,Google希望它能让世界摆脱这种不同编码的同音字攻击。RETVec的工作原理似乎与人类的阅读方式很相似:它是一个机器学习TensorFlow模型,利用视觉"相似性"来识别单词的含义,而不是识别单词的实际字符内容。Google的"相似性"演示使用了相同的技术来识别猫的图片,因此将其转化为世界上最先进的光学字符识别系统听起来是可行的。显然,这种方法已经带来了很大的改进,Google表示"用RETVec代替Gmail垃圾邮件分类器之前的文本向量器,使我们的垃圾邮件检测率比基线提高了38%,误报率降低了19.4%。此外,使用RETVec还将模型的TPU使用量降低了83%,使RETVec的部署成为近年来最大的防御升级之一。"Google表示,"在过去的一年里一直在内部测试RETVec,并已将其推广到你的Gmail账户。"...PC版:https://www.cnbeta.com.tw/articles/soft/1402073.htm手机版:https://m.cnbeta.com.tw/view/1402073.htm