腾讯开源了个新项目embedx。 embedx是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目

腾讯开源了个新项目embedx。 embedx是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等 目前已经在腾讯的多个产品上应用。已经实现的模型: 十亿级节点、千亿级边的 图模型 百亿级样本、百亿特征的 深度排序、召回模型 十亿级节点、千亿级边与百亿级样本、百亿特征的 图与深度排序、图与深度召回的联合建模模型

相关推荐

封面图片

OneFlow v0.9.0更新,分布式深度学习框架

OneFlow v0.9.0更新,分布式深度学习框架 此更新包含 640 个提交和以下亮点: 1.OneFlow v0.9.0 增加了 86 个与 PyTorch 对齐的新 API 接口和运算符,并修复了 104 个与运算符兼容性相关的错误,从而提供了更好的 PyTorch API 和模型兼容性。在 v0.9.0 中,用户可以一键将更多 PyTorch 模型迁移到 OneFlow,获得更快的性能。 2.支持一键迁移Stable Diffusion、GLM、YOLOv5等到OneFlow。 3.更方便的模型迁移。Oneflow.load支持torch.save直接加载模型。 4.通过新增的oneflow.mock_torch模块和mock方法,oneflow可以在不改变原有PyTorch脚本的情况下,一键迁移包含多个脚本的复杂PyTorch模型。 5.Global Tensor增加了一系列方便分布式编程的接口和方法,并修复了已知的相关bug。 6.The Graph 发布了自动并行(version 1)的新特性,支持自动搜索指定 Placement 下最快的 SBP。使用 Global Tensor 编写分布式模型时,用户无需考虑并行性。 7.The Graph 添加了一系列与内存、执行速度、管道屏蔽和编译速度相关的优化,以提高性能并减少内存开销。 8.Graph提供了一系列辅助调试的功能,包括分析内存日志、显示编译阶段的进度、计算图等。 9.OneFlow IR 提供了更多的编译优化功能。 10.OneFlow的错误提示更加人性化,支持高亮显示错误内容,简化系统内部不必要的信息细节。就此而言,您可以直观地了解错误的位置和类型。 11.增加了一系列算子优化和系统优化,包括Eager指令调度、高性能CUDA内核、开放多个内存池等。 | #框架

封面图片

普林斯顿大学提供的《算法》第四版的在线资源,包含在线阅读和java代码等内容。调查了当今使用的最重要的算法和数据结构。

普林斯顿大学提供的《算法》第四版的在线资源,包含在线阅读和java代码等内容。调查了当今使用的最重要的算法和数据结构。 教材分为六章: 第 1 章:基础。介绍了比较算法和进行预测的科学和工程基础。它还包括我们的编程模型。 第 2 章:排序。考虑了几种经典的排序算法,包括插入排序、归并排序和快速排序。它还具有优先级队列的二进制堆实现。 第 3 章:搜索。描述了几种经典的符号表实现,包括二叉搜索树、红黑树和哈希表。 第 4 章:图。研究了最重要的图处理问题,包括深度优先搜索、广度优先搜索、最小生成树和最短路径。 第 5 章:字符串。研究字符串处理的专门算法,包括基数排序、子字符串搜索、尝试、正则表达式和数据压缩。 第 6 章:上下文。强调与系统编程、科学计算、商业应用、运筹学和难处理性的联系。 | #电子书

封面图片

蚂蚁集团开源高性能图数据库 TuGraph,成立图计算开源委员会

蚂蚁集团开源高性能图数据库 TuGraph,成立图计算开源委员会 图数据库领域权威测试世界纪录保持者,蚂蚁图数据库 TuGraph 宣布开源。 9 月 1 日,2022 世界人工智能大会“新一代图智能技术发展与实践论坛”上,蚂蚁集团图计算负责人陈文光宣布开源蚂蚁集团高性能图数据库 TuGraph 单机版,并成立图计算开源技术委员会,中国工程院院士郑纬民、陈纯分别担任主席、副主席,5 位业界知名专家担任委员 TuGraph 由蚂蚁集团和清华大学共同研发,是图数据库权威测试世界纪录保持者,也是世界上有测试纪录的“最快”的图数据库。随着 TuGraph 的开源,图数据领域将迎来一款性能卓越、功能丰富、生态完备的开源产品。开发者可以聚焦应用层,轻松打造属于自己的图数据,从而提升行业整体技术应用水位。TuGraph 开源采用 Apache2.0 协议,在 Github 和 Gitee 上进行托管。 图数据库区别于关系型数据库,基于图模型,使用点边来表示、存储、处理数据,拥有灵活的数据抽象模型,能够更好地表达出“关系”的概念。 蚂蚁 TuGraph 是一套分布式图数据库系统,可以支持万亿级边上的实时查询。此次开源的 TuGraph 单机版,同样具备完备的图数据库基础功能和成熟的产品设计,可以轻松支持 TB 级别数据和百亿级别大图,足以满足大多数业务场景需求。相较于市场上常见的开源产品,TuGraph 单机版的性能高 10 倍以上。 ... 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

2024胡润全球富豪榜发布:钟睒睒连续第四次成为中国首富 AI造富效应明显

2024胡润全球富豪榜发布:钟睒睒连续第四次成为中国首富 AI造富效应明显 美国增加最多,增加了109位,达到800位;中国减少155位,至814位,仍然位居世界第一;印度以271位排名第三,增加了84位,是美国之外新增十亿美金企业家最多的国家。值得一提的是,随着AI大爆发,全球一半以上新增财富来自AI。本文图片均为 胡润研究院 供图榜单显示,52岁的埃隆·马斯克以1.67万亿元人民币的财富重登首富宝座,比去年增加了5300亿元,这得益于特斯拉创纪录的交付量使其股价飙升。与此同时,马斯克的太空探索技术公司SpaceX在成功发射、卫星互联网项目和利润丰厚的政府合同的支持下,估值达到了新的高度。这是他四年来第三次成为世界首富。亚马逊的杰夫·贝佐斯上升两位至第二,财富增加4800亿元,涨幅57%,达到1.33万亿元人民币。去年排名第一的伯纳德·阿诺特跌至第三,财富减少1900亿元,至1.26万亿元人民币。从中国地区来看,北京、上海和深圳是中国十亿美金企业家最爱居住的“三大”城市。长三角地区共252位十亿美金企业家上榜,粤港澳大湾区共220位上榜。中国拥有世界上最多的白手起家十亿美金企业家,也拥有世界上最多的白手起家女性十亿美金企业家。中国十亿美金企业家总财富近19万亿元人民币,比去年下降15%。241位的财富比去年增长,其中有55位是新面孔。新面孔数量居全球第三。702位的财富比去年减少,其中208位落榜。80位的财富保持不变。千亿级企业家27位,比去年减少9位。70岁的钟睒睒财富比去年缩水9%,以4500亿元连续第四次成为中国首富,排名全球第21位,下降6位。旗下香港上市公司农夫山泉去年上半年业绩表现突出,销售收入及利润同比上涨14%和16%。旗下另一家A股上市公司万泰生物过去一年业绩有所下降,股价同比下跌近30%,公司市值较去年同期缩水350亿元。农夫山泉在《2023胡润世界500强》中排名第211位。44岁的黄峥财富比去年增长71%,即1600亿元,是今年中国财富增长最多的企业家,以3850亿元首次晋升为中国第二,上升3位,排名全球第24位,上升15位。拼多多去年三季报显示,总收入同比增长超90%,远超市场预期。另外海外业务Temu和快团团业务发展势头良好。2023年11月,拼多多的市值曾一度超过阿里巴巴。拼多多在《2023胡润世界500强》中排名第63位。53岁的马化腾财富比去年下降10%,以2500亿元位列中国第三。排名全球第36位,下降5位。去年第三季度,腾讯营收1500多亿元,同比增长10%,净利润360多亿元,下降9%。其中国际市场游戏收入130多亿,增长14%。在《2023胡润世界500强》中,腾讯排名第17位。涨幅最大的企业家包括:凭借AI的发展,游戏公司米哈游37岁的蔡浩宇,财富增长210%至670亿元,半导体公司寒武纪39岁的陈天石,财富增长120%至160亿元;来自台湾的广达电脑75岁的林百里,财富增长180%至605亿元;面膜公司敷尔佳60岁的张立国,财富增长90%至135亿元。相比AI,中国的新能源和房地产企业家过去一年财富缩水不少,总部福建的电池制造商宁德时代的曾毓群财富缩水900亿元人民币,万达的王健林家族财富缩水72%至300亿元,旗下万达商管大部分股份已被冻结;碧桂园的杨惠妍家族财富缩水60%至440亿元。京东的刘强东、章泽天夫妇财富下降500亿元,至495亿元人民币。“AI今年第一次深度影响我们的全球富豪榜,一半以上的新增财富是来自AI。Meta、亚马逊、Google母公司Alphabet、甲骨文、微软等与云计算相关的企业家财富大幅增长。英伟达的黄仁勋第一次财富明显增长,进入全球前30。其他从事半导体行业的如寒武纪的陈天石、联发科技的蔡明介,来自北京的AI公司第四范式的戴文渊等财富也增长较快。奇怪的是,OpenAI,虽然有接近1000亿美金的估值,但它的创始人山姆·奥特曼据说没有股份,因此没有上榜。”胡润百富董事长兼首席调研官胡润表示,全球十亿美金企业家人数增加了5%,几乎弥补了去年全球经济走出疫情影响以及对美国降息的普遍预期所造成的所有损失。 ... PC版: 手机版:

封面图片

给AI当“奶妈”,是天涯们的生路吗?

给AI当“奶妈”,是天涯们的生路吗? 再听到天涯的消息,是在今年2月底,全国企业破产重整案件信息网上公开一条“天涯社区网络科技股份有限公司被申请破产审查”的信息。尽管天涯方面否认即将破产的传闻,但天涯重见天日的可能性,到底是更加渺茫了。在美国,一家式微的老牌内容平台,却依靠AI的浪潮找到了副业,吃下了热钱第三方图片托管平台Photobucket,一度拥有7000万用户,占据美国在线照片市场的近一半份额。如今,Photobucket辉煌不再,只有约200万人还在使用它。正所谓“瘦死的骆驼比马大”,已经被大部分人遗忘的Photobucket有之前多年的积累,依然坐拥上百亿照片和视频。而这,正是患上“数据饥渴症”的AI公司最需要的。在AI热潮下,不断有公司找上门来。以正在进行的谈判来粗略估计,Photobucket手里掌握的内容可能价值数十亿美元。有钱但缺数据的AI公司,遇上没钱但积累了海量内容的老牌社区,不交易一下才奇怪。Photobucket正在与AI公司谈交易的消息,是由路透社曝出的。有意思的是,报道中有一句话在后续编辑中被删除:“公司预计,其第一季度营业陆润将增长10倍,达到近49亿美元。”49亿美元是什么概念?Photobucket作为一家图片托管网站,刚开始是免费的。在千禧年前后,互联网用户激增,人们或为了记录生活,或为了分享,乐于将照片上传到一个专门的网站。而且,在Photobucket上传了图片后,人们还可以在其他网站如MySpace直接嵌入,省得反复上传。一些卖家也会在eBay或亚马逊使用Photobucket托管的图片。用这种方式,巅峰时期的Photobucket一度占据了美国互联网流量的2%。由免费转向付费,似乎是Photobucket的必经之路。不过,Photobucket有点太心急了。2017年时,Photobucket突然将第三方显示变为每年399美元的付费订阅服务。此举并没有提前的充分预警,很多用户发现自己在其他网站嵌入的Photobucket图片都无法展示,变成了“付费以解锁”的提示。要知道,Photobucket当时已经有1亿注册用户,有约6000万第三方网站的图片在此次“升级”下无法正常显示。在争议之下,Photobucket次年将年订阅模式改为可月付的模式,并沿用至今。Photobucket也就此走上下坡路。后续几年,Photpbucket又经历了服务中心断电导致服务中断、隐私泄露等“意外”,渐渐从备受欢迎的图片网站变成了互联网边角料产品。公司规模也从鼎盛时期的120名员工缩水到了40人。目前Photobucket网站提供的付费计划中,最贵的每月收取8美元。以最新报道透露的200万用户在使用Photobucket计算,哪怕他们全部月付8美元,每年也仅能贡献1.9亿美元。而且这对Photobucket来说只是收入,没有剔除存储、维护、运营等的各项成本。虽然Photobucket在过去二十年损失了不少用户,但除非用户注销,它一直保留着用户的图片。即便是在不再支持免费账户的情况下,Photobucket也明确通知用户:你的照片还在,只需要现在开始付费,就能重新看到它们。不断有已经弃用Photobucket的用户在社交媒体上吐槽,称自己频繁收到Photobucket“求复合”的邮件,已经不堪其扰。既然图片都在,海量的内容还存储在服务器上,为什么不用它们赚上一笔?将平台内容授权给AI公司,获得49亿美元,对Photobucket来说可以算是一笔巨款了。为什么AI公司会找上“明日黄花”Photobucket?答案很简单,太缺数据了。以OpenAI的GPT系列模型为例,GPT-3使用了3000亿的token,GPT-4使用了12万亿的token。而已经在路上的GPT-5所需的token量在60万亿到100万亿。“规模即一切”成为AI的战斗口号。霍普金斯大学卢纶物理学家贾里德·卡普兰(Jared Kaplan)在2020年发表了一篇关于AI的开创性论文,其表明训练数据越多,大型语言模型的表现越好,就像学生通过阅读更多书籍来学习更多知识一样。互联网上公开可用的数据在大模型面前并不是取之不尽的。据人工智能研究机构Epoch估计,2026年所有高质量可用数据就有可能被耗尽,互联网生产数据的速度有可能比不上不断膨胀的大模型的消耗速度。“数据饥渴”的AI公司获取数据的路径,总结起来就是:免费的,直接用;自家的,直接用且不给别人用;可以付费的,付费;付费也买不到的,必要时想想办法弄到手。近日,《纽约时报》报道OpenAI曾在训练GPT-4时利用了Google旗下YouTube的内容。直接取用肯定不行,Google不让啊。于是OpenAI计上心头,创建了一个名为Whisper的语音识别工具,将超过100万小时的YouTube视频转录,然后再喂给模型。此前,尚未开放给大众的文本到视频工具Sora也引起了外界怀疑。在一次采访中,OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)没有正面回应“是否使用YouTube、Instagram、Facebook等平台的内容训练Sora”这一问题,她听到该问题时复杂的表情甚至成为了互联网梗图。YouTube首席执行官尼尔·莫汉(Neal Mohan)在4月5日对此表态,称目前没有证据表明OpenAI用了YouTube视频训练Sora,但如果OpenAI果真这么做了,那“明显违反”了YouTube平台的使用条款。要是以为YouTube是在努力保护用户(或说创作者),可能有点天真。莫汉在采访中也提到,Google确实用了YouTube上的一些内容训练了旗下大模型Gemini。另一边,巨头Meta的马克·扎克伯格(Mark Zuckerberg)也将平台数据视为自己的竞争优势。扎克伯格曾直言:“我们战术的下一个关键部分是从独特的数据中学习。”“在Facebook和Instagram上,有数千亿张公开分享的图片和数百亿段公开视频。”在去年怒喷微软,威胁要起诉其使用X的数据训练AI的埃隆·马斯克(Elon Musk),也悄悄更新了X的隐私政策,表示会使用社交媒体数据来训练机器学习和AI模型。在网友的追问下,马斯克干脆承认:“只会用公开信息(训练),不会用私信和任何私人数据。”有海量UGC(用户生成内容)且自己也做AI的公司,数据是不卖的,只给自己用。其他AI公司要么就铤而走险偷偷用,要么就要去找那些有内容但愿意出售的公司。ShutterStock和Reddit都是活跃在数据交易场上的“大卖家”。图片网站ShutterStock几乎和所有叫得上名字的AI大公司都合作了个遍,包括但不限于OpenAI、Meta、Google、亚马逊,达成使用其图片训练AI的协议。每笔交易的最初价格从2000万美元到5000万美元不等,而且后续还扩大了交易规模。随着AI浪潮翻涌,“美国贴吧”Reddit意识到自己的数据对AI公司至关重要,且非常宝贵。去年开始,Reddit开始与一系列AIGC领军企业展开谈判,商议数据付费使用的问题。说白了就是,不付费要授权,休想用这一头部美国贴吧的内容喂AI了。谈判陆续有了进展,如今年2月,Reddit就与Google达成协议,授权数据给其训练AI,合同价值约每年6000万美元。在这样的态势下,Photobucket这样的老牌社区被盯上只是时间问题。Photobucket的首席执行官泰德·伦纳德(Ted Leonard)表示,他正在和多家科技公司谈判,涉及130亿个内容(照片和视频)的授权。每张照片的授权价格在5美分到1美元,视频则为1美元以上。一位买家告诉伦纳德,他们想要超过10亿个视频,比Photobucket拥有的还多。以现在的谈判来看,Photobucket坐拥数十亿美元的内容。机智的Photoshop在去年10月更新了其用户条款,授予平台“不受限制的权利”,可以出售任何上传的内容,用于培训AI系统。伦纳德甚至表示,有望用数据授权替代公司的广告销售业务。繁忙的数据交易市场,也许给式微甚至已经死亡的UGC平台提供了一个“副业”。天涯究竟积累了多少内容不可知,几个数据可以从侧面一窥其规模。巅峰时期,天涯的日访问量曾达到200... PC版: 手机版:

封面图片

利物浦都在用的AI教练,真能拯救国足吗?

利物浦都在用的AI教练,真能拯救国足吗? 而这时候,一条新闻映入了球迷眼帘,说是英超强队利物浦,已经从三年之前开始与顶级AI公司DeepMind合作,开发了一款效果出众的AI教练。这个名为TacticAI的系统,已经可以设计出与真人教练不相上下的战术布置,并且极大提升了球队的进攻效率。那这不是好办了吗?谁当国足教练都不行,咱们干脆让AI来呗。至少AI不会走后门,也不会吹头发……如果只是简单看一下相关新闻,或许会认为这个逻辑是十分通顺的。但如果我们仔细审视利物浦的这位“AI教练”,并且了解AI与足球的融合历程,或许会发现目前让AI来拯救国足并不现实。想要拯救中国男足,还是只能靠……算了,我也不知道靠谁。利物浦究竟用AI做了什么?首先来说说,最近热议的TacticAI,究竟为利物浦带来了什么,它的工作机理是怎样的。事实上,TacticAI是DeepMind与利物浦足球俱乐部共同开发的体育科研项目。有句老话说得好,英国人只想把科技应用在两个地方,那就是医疗和足球。所以AI和足球结合,在英国是非常盛行的。不只是利物浦,英超众多球队都与不同的科技公司有深度合作。而TacticAI的不同之处在于,它专注于绿茵场上一个特定的时刻:角球。相比于运动战,角球和任意球代表的定位球战术在球场上变量更小,数据更加可控,因此也更适合AI进行数据学习与样本分析。DeepMind就通过大量分析以往角球战术数据,并结合利物浦提供的球员数据,让AI来分析其中规律,推理如何提高角球的进攻效率,增加射门机会。从技术逻辑上看,TacticAI采用了非常前沿的图神经网络算法,通过将角球设置展现为图量Graph来模拟球员与球路之间的运动关系,从而最终生成不同的角球战术指引,同时还可以测试不同战术可能带来的结果。根据相关报道,TacticAI设计出的角球战术已经很难与人类教练进行区分,并且人类专家在90%的情况下都愿意采取AI的建议。那么是不是意味着,AI已经可以代替人类,成为一支球队的教练呢?答案并非如此。从TacticAI中,我们就可以看到AI与足球教练之间,并非取代与被取代的关系。首先,TacticAI仅仅专注于角球战术,而角球只是足球技战术汪洋大海中的冰山一角,因此它并不是能够统领球队的全局型教练,只是特别领域中的特别应用。其次,TacticAI也并不能够替代角球战术设计。它只是给出对过往数据的分析,从而降低教练组的数据查询工作,获得更简单明了的提示。AI仅仅是一个辅助工具,一个提示器而已。最后,很多朋友被新闻标题误导,认为利物浦在过去三年中都使用了TacticAI。其实信息源仅仅是说利物浦从三年前开始与DeepMind进行相关合作,但并没有回应是否已经在正式比赛中使用了AI技术。总结一下,利物浦与DeepMind的合作,探索出了AI与足球,甚至是AI与体育运动结合的一个全新方向。但这种合作目前还主要是科研性质的,对竞技比赛并未造成一定影响。想让AI替代人类足球教练,在今天还遥遥无期。不如预期AI足球教练的黯淡梦想事实上,AI教练替代人类这件事,并不是咱们国足球迷的脑洞大开。早在多年以前就有了相关讨论,并且有球队进行了实践。但现实情况是,AI足球教练的发展不如预期,甚至可以说已经被证明这就是一个噱头。早在2019年,英国媒体就报道了英格兰第七级别联赛球队,温盖特·芬里奇队决定雇佣AI作为教练。他们任命了名为Greenshoot的AI系统来分析足球数据,指定赛前与赛中的战术策略。从职能上看,这与人类足球教练的工作非常相似。当时,这件事也引发了一定的讨论。记得那时正值里皮愤然离开国足,也有球迷和媒体说,既然请世界杯冠军教练都搞不定国足,咱们就干脆让AI来当教练吧。多年以后,没想到这个循环还在上演……但在噱头和热度之后,AI足球教练这个概念却转瞬消散,再也没有被更多球队效仿和采纳。只有业余球队和低级别球队,会偶尔想用AI教练的概念来博一搏关注,吸引一下媒体注意力。作为一支球队的主教练,需要处理从训练到比赛,从战术到人际关系的方方面面问题。在可见的未来里,这都不是AI所能够代替的。AI已经深入足球但绝不是救命稻草或许我们必须摆正一个关系,那就是AI并非为替代人类而来,它仅仅是一种新的职业工具,新的辅助手段。在足球中,这个关系显示得尤为明显。我们理解了AI根本无法代替足球教练,但同时也会发现AI正在多角度,全方位融入现代足球,融入现代体育。在足球训练和教学中,今天随处可见在用球中加入传感芯片,通过AI来分析球员的速度、力量,甚至盘带和过人技巧,也能看到运动背心连入AI系统,分析运动员的体能与身体状况、竞技水平等等。在训练场之外,AI还被广泛应用于足球转会市场。英超中的著名“黑马球队”,比如布伦特福德、布莱顿等,都以用AI技术来挖掘高性价比球员而著名。甚至在足球之外,各项体育运动中也都可以看到AI技术的身影。比如中国国家跳水队,就已经采用了百度的文心大模型来进行AI辅助训练。将AI应用于理解教练指令、对跳水动作实时打分、精准量化分析等环节。AI全方位深入现代体育,是一个不可逆的趋势。未来,AI技术或许也会像营养技术、训练方法一样,成为一家俱乐部,一支国家队的核心竞争力之一。但我们不会认为,有了一本《营养大全》,球队就可以解雇营养师。同样的道理,也不可能有了AI,就解雇人类教练。足球为代表的大量体育运动,都有着复杂、多变,强调团队配合的属性。教练团队需要负责的事务繁多,大家各司其职。在这种背景下,AI只能提升特定能力,解决特定问题,而不可能全局接管。除非,你想让国足变成一支只擅长角球的球队,其他什么也不会。哎,这么一想好像也不是不行,至少能比现在差到哪里去呢? ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人