:旨在通过语义向量技术构建一个全管道的数据平台Neum AI,以提高机器阅读理解模型对大规模数据的处理能力,内置多个数据源连接器

:旨在通过语义向量技术构建一个全管道的数据平台Neum AI,以提高机器阅读理解模型对大规模数据的处理能力,内置多个数据源连接器如网站、数据库等,Embedding服务如OpenAI,以及向量存储如Weaviate。支持实时同步数据源,保证数据时效性。云版本提供完整的大规模分布式计算能力

相关推荐

封面图片

一种语义数据建模和分析工具,集成了AI技术,可以通过简单的API组合和分析来自多个数据源的数据,作为数据之上的语义层,可以自动生

一种语义数据建模和分析工具,集成了AI技术,可以通过简单的API组合和分析来自多个数据源的数据,作为数据之上的语义层,可以自动生成SQL查询,无需手动编写,可以与现有的数据库基础架构轻松集成。 定义包含各种 SQL 和/或类似文件的数据源的仓库 定义或反映数据中的指标、维度和关系 运行多数据源报告并将结果合并到 DataFrame 中 通过多级汇总和表枢轴灵活聚合数据 自定义字段或将字段与公式组合 应用技术改造,包括滚动、累积和排名统计 应用自动类型转换 - 即从“日期”列免费获取“年份”维度 保存和共享报告规范 利用临时或公共数据源、表格和字段来丰富报告 使用自然语言查询你的仓库(NLP 扩展) 利用 AI 引导你的仓库配置(NLP 扩展) | #工具

封面图片

:大规模、信息丰富、多样化的多轮对话数据,以方便构建具有通用会话能力的强大语言模型

:大规模、信息丰富、多样化的多轮对话数据,以方便构建具有通用会话能力的强大语言模型 为了保证生成质量,生成时采用了两个独立的 ChatGPT Turbo API,其中一个扮演用户角色生成查询,另一个生成响应。 该项目使用精心设计的提示来指导用户模型模仿人类用户行为并迭代调用这两个 API。生成的对话经过进一步的后处理和过滤。 由三个部门组成: Questions about the World:该部门的对话数据来自与现实世界中的概念、实体和对象相关的广泛查询。涵盖的主题广泛,涵盖技术、艺术和创业等领域。 写作与创作:该领域的对话数据由从零开始的写作/创作需求驱动,涵盖了 AI 助手在创作过程中可能协助完成的任何任务,从电子邮件撰写到制作叙事和剧本,超越。 Assistance on Existent Materials : 该板块的对话数据是基于现有材料生成的,包括但不限于改写、延续、总结和推理,涵盖主题多样。

封面图片

Claude 迈进企业领域的一大步 ,与Scale 深度合作

Claude 迈进企业领域的一大步 ,与Scale 深度合作 Anthropic 宣布与Scale的合作,Scale是构建、部署和管理生成性人工智能应用的领先平台。Scale的企业客户现在就能够使用Claude。 全新的伙伴关系使客户能够利用Scale的服务: - 如专家提示工程和模型验证,以提高性能和识别弱点。 - Scale的企业级安全将通过客户的私有AWS环境提供 - Scale的数据连接器将允许客户导入数据库、Confluence、Google Drive和Outlook等专有数据源,以便大规模地与Claude合作。 注:与微软Azure、Google Cloud等云平台的区别,是一个更加专注于为AI和ML应用程序提供高质量训练数据的数据注释和标签服务提供商。 通过将Anthropic的克劳德模型和宪法人工智能系统与Scale的强大工具和功能相结合,客户获得了一个企业就绪的解决方案,更多合作细节即将分享。 Anthropic 的首席执行官Dario Amodei说:"与Scale合作,使我们能够以一种周到的、可扩展的方式将我们 Claude带给更多客户。通过将Scale的 AI工程能力与我们基于价值观的模型开发方法相结合,客户现在在构建和部署生成型人工智能应用时有了更多的帮助。我对这种合作关系以及我们为积极塑造人工智能的未来而共同开展的工作感到兴奋。" 人工智能的未来是协作性的。 官方报道:

封面图片

elvis写了一篇非常详细的文章来介绍 RAG 生态的所有部分,还会添加清晰易懂的参考文献列表以及技术性编程教程帮助提高 RAG

elvis写了一篇非常详细的文章来介绍 RAG 生态的所有部分,还会添加清晰易懂的参考文献列表以及技术性编程教程帮助提高 RAG 系统的性能。 主要内容来自《大语言模型的检索增强生成:一项调查》这篇论文,我简要总结了一下文章每个部分的内容,感兴趣可以去看原文: 检索增强生成(Retrieval Augmented Generation, RAG)技术,旨在通过结合外部知识源,如数据库,来提升大语言模型(LLMs)的能力。它主要用于解决领域知识的缺失、事实性问题和生成错误。RAG特别适用于那些需要最新知识、又不需针对每个特定任务重复训练LLM的应用场景,比如对话代理和知识密集型任务。 RAG如何工作 RAG通过接收输入的提示信息,从资源如维基百科中检索相关文档,再将这些文档作为上下文来生成回答。这种方法使LLMs能够访问最新的信息,并生成更准确、更可控、更相关的内容。它能及时适应不断变化的信息,这对于LLM来说至关重要,因为它们的知识库本身是静态的。 RAG系统的发展 RAG系统已经从初级阶段(Naive RAG)发展到高级阶段(Advanced RAG)和模块化阶段(Modular RAG),以解决性能、成本和效率的限制。高级RAG通过优化不同阶段,如预检索、检索和检索后处理,来提高检索质量。模块化RAG则通过调整不同的功能模块来适应特定问题的背景,提供了更大的灵活性。 RAG系统的关键组成 检索:包括提升语义表示、对齐查询与文档,以及调整检索器输出以符合LLM的偏好。 生成:涉及将检索到的信息转化为连贯的文本,并在检索后对LLM进行微调。 增强:在生成任务中融合检索到的段落的上下文,包括不同阶段和增强数据源。 RAG与模型微调 RAG适合用于集成新知识,而模型微调则有助于提升模型的性能和效率。这两种方法可以互补,结合提示工程(Prompting Engineering),能够优化LLM在复杂和可扩展应用中的表现。 RAG的评估 RAG系统的评估基于检索到的上下文质量和生成的内容质量。评估指标包括规范化折扣累计增益(NDCG)、命中率、F1值和精确匹配(EM)等。评估重点是上下文的相关性、答案的准确性和相关性,以及抗噪声能力和信息整合能力。 RAG面临的挑战与未来展望

封面图片

弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一

弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一 没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。弱智吧数据究竟如何达成这一成就,具体到论文中看。弱智发言成指令微调神器这项研究起初为解决中文大模型训练中的诸多问题:中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景不少数据集是用AI生成的,质量难以保证,容易出现事实性错误即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset。在众多数据来源中,弱智吧成了最特别的一个。由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。看来小模型还没能领悟弱智的精髓。到了Yi-34B,弱智吧版本表现就一骑绝尘了。只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。另外,在安全评估上弱智吧版本也能排上第二。对于这类现象,研究人员在分析中也给出简单猜测:可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。弱智吧上大分这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。大伙儿都比较认可的一个原因是弱智吧题目的“异质”。像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。另一个原因是弱智吧数据文本质量很高,用词准确且简洁。千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。一开始只是网友拿来拷打AI,搞搞节目效果。后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:后续版本也渐入佳境了,如2023年8月的文心一言:知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。秘塔写作猫Inspo再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。思路确实是被打开了~ ... PC版: 手机版:

封面图片

台积电公布A16 1.6nm工艺:对比2nm性能提高10%、功耗降低20%

台积电公布A16 1.6nm工艺:对比2nm性能提高10%、功耗降低20% 据了解,台积电在此次的北美技术论坛中,首度公开了台积电A16(1.6nm)技术,结合领先的纳米片晶体管及创新的背面供电(backside power rail)解决方案以大幅提升逻辑密度及性能,预计于2026年量产。台积电还推出系统级晶圆(TSMC-SoWTM)技术,此创新解决方案带来革命性的晶圆级性能优势,满足超大规模数据中心未来对AI的要求。台积电指出,适逢台积电北美技术论坛举办30周年,出席贵宾人数从30年前不到100位,增加到今年已超过2,000位。北美技术论坛于美国加州圣塔克拉拉市举行,为接下来几个月陆续登场的全球技术论坛揭开序幕,本技术论坛亦设置创新专区,展示新兴客户的技术成果。台积电总裁魏哲家博士指出,我们身处AI赋能的世界,人工智慧功能不仅建置于数据中心,而且也内置于个人电脑、移动设备、汽车、甚至物联网之中。台积电为客户提供最完备的技术,从全世界最先进的硅芯片,到最广泛的先进封装组合与3D IC平台,再到串连数位世界与现实世界的特殊制程技术,以实现他们对AI的愿景。此次论坛公布新技术包括:台积电A16技术随着台积电领先业界的N3E技术进入量产,接下来的N2技术预计于2025年下半年量产,台积电在其技术蓝图上推出了新技术A16。据介绍,A16将结合台积电的超级电轨(Super PowerRail)构架与纳米片晶体管,预计于2026年量产。该超级电轨技术将供电网络移到晶圆背面,为晶圆正面释放出更多信号网络的布局空间,借以提升逻辑密度和性能,让A16适用于具有复杂信号布线及密集供电网络的高效能运算(HPC)产品。台积电表示,相较于N2P制程,A16在相同Vdd(工作电压)下,速度增快8-10%,在相同速度下,功耗降低15-20%,芯片密度提升高达1.10倍,以支持数据中心产品。台积电创新的NanoFlex技术支持纳米片晶体管台积电即将推出的N2技术将搭配TSMC NanoFlex技术,展现台积电在设计技术协同优化的崭新突破。TSMC NanoFlex为芯片设计人员提供了灵活的N2标准元件,这是芯片设计的基本构建模块,高度较低的元件能够节省面积并拥有更高的功耗效率,而高度较高的元件则将性能最大化。客户能够在相同的设计内存块中优化高低元件组合,调整设计进而在应用的功耗、性能及面积之间取得最佳平衡。N4C技术台积电还宣布将推出先进的N4C技术以因应更广泛的应用。N4C延续了N4P技术,晶粒成本降低高达8.5%且采用门槛低,预计于2025年量产。据介绍,N4C提供具有面积效益的基础硅智财及设计法则,皆与广被采用的N4P完全兼容,因此客户可以轻松移转到N4C,晶粒尺寸缩小亦提高良率,为强调价值为主的产品提供了具有成本效益的选择,以升级到台积电下一个先进技术。CoWoS、系统整合芯片、以及系统级晶圆(TSMC-SoW)台积电的CoWoS是AI革命的关键推动技术,让客户能够在单一中介层上并排放置更多的处理器核心及高带宽内存(HBM)。同时,台积电的系统整合芯片(SoIC)已成为3D芯片堆叠的领先解决方案,客户越来越趋向采用CoWoS搭配SoIC及其他元件的做法,以实现最终的系统级封装(System in Package,SiP)整合。台积电系统级晶圆技术提供了一个革新的选项,让12英寸晶圆能够容纳大量的晶粒,提供更多的运算能力,大幅减少数据中心的使用空间,并将每瓦性能提升好几个数量级。台积电已经量产的首款SoW产品采用以逻辑芯片为主的整合型扇出(InFO)技术,而采用CoWoS技术的芯片堆叠版本预计于2027年准备就绪,能够整合SoIC、HBM及其他元件,打造一个强大且运算能力媲美数据中心服务器机架或甚至整台服务器的晶圆级系统。硅光子整合台积电正在研发紧凑型通用光子引擎(COUPE)技术,以支持AI热潮带来的数据传输爆炸性成长。COUPE使用SoIC-X芯片堆叠技术将电子裸晶堆叠在光子裸晶之上,相较于传统的堆叠方式,能够为裸晶对裸晶界面提供最低的电阻及更高的能源效率。台积电计于2025年完成支持小型插拔式连接器的COUPE验证,接着于2026年整合CoWoS封装成为共同封装光学元件(Co-Packaged Optics,CPO),将光连接直接导入封装中。车用先进封装继2023年推出支持车用客户及早采用的N3AE制程之后,台积电借由整合先进芯片与封装来持续满足车用客户对更高运算能力的需求,以符合行车的安全与质量要求。台积电正在研发InFO-oS及CoWoS-R解决方案,支持先进驾驶辅助系统(ADAS)、车辆控制及中控电脑等应用,预计于2025年第四季完成AEC-Q100第二级验证。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人