【证监会科技监管局局长姚前:重点发展基于 AIGC 技术的合成数据产业,构建大模型训练数据的监管体系】

【证监会科技监管局局长姚前:重点发展基于AIGC技术的合成数据产业,构建大模型训练数据的监管体系】3月7日消息,证监会科技监管局局长姚前在《中国金融》撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。国家相关部门应对大模型训练数据的处理和使用标准进行统一规范;建立数据托管机制,对数据托管方进行约束,要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测,从而使得模型的输入、输出结果符合监管要求。

相关推荐

封面图片

知乎周源:推动完善 AIGC 监管立法,保护和规范数据合规

知乎周源:推动完善AIGC监管立法,保护和规范数据合规在2024年全国两会上,全国政协委员、知乎创始人兼CEO周源建议,相关政府部门和监管机构针对数据合规应建立相应的监管机制,推动完善AIGC监管立法,保护和规范人工智能领域的数据合规。对大模型的数据采集来源、处理方法、合规性等进行监督和审查。此外,应加强对大模型的社会影响和风险评估,及时发现和解决可能存在的问题。其次,要加快高质量中文数据集的开发与利用。数据作为新型生产要素已经成为驱动全球数字经济的动力引擎,国内数据要素市场起步较晚,标准、权属、交易、商业模式、监管等相关环节还有待完善。(澎湃)

封面图片

微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜?

微软、OpenAI用上“数据永动机”合成数据是蜜糖还是砒霜?已有的(通用)数据资源似乎接近效能极限,开发人员认为,网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出,网络极为嘈杂混乱,“它并不能为你提供你真正想要的数据,网络无法满足我们的一切需求。”之前,ChatGPT、Bard等聊天机器人的训练数据多来自于互联网,例如电子书、新闻文章、博客、Twitter与Reddit的推文帖子、Youtube视频、Flickr图片等。但随着AIGC技术愈发复杂,高质量数据的获取难度也越来越大。开发AI模型的科技公司们,也因不当使用数据而遭受多方抨击。今年5月的一场活动上,OpenAI首席执行官SamAltman曾被问及,是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否,并表示自己“非常有信心,很快所有数据都将是合成数据”。▌人类真实数据售价高昂为了大幅提高AI模型的性能,提升它们在科学、医学、商业等领域的水平,AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”,或是需要从药企、银行、零售商等大型企业获取专业数据。这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。且不说那些技术含量极高的制药、科学数据,光是之前Reddit和Twitter给出的数据采集要价,都被Gomez“嫌弃”价格太高。其中,Reddit本月起开始对数据接口使用收费。根据第三方软件Apollo的开发者ChristianSelig透露,Reddit收费标准为0.24美元/1000次API响应——对于Apollo来说,这大约相当于200万美元/月开销。而根据Twitter今年3月发布的API政策,企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用,对应可以获得5000万至2亿条推文。而测算数据显示,最低一个档次的套餐只约等于整体推文的0.3%。在这种情况下,合成数据自然成了一个实惠方案,不仅可以避开这些数据的高昂售价,还能生成一些更复杂的数据来训练AI。▌如何用合成数据训练?具体如何用合成数据训练AI大模型?Gomez举了一个例子:在训练一个高级数学模型时,Cohere可能会使用两个AI模型进行对话,其中一个扮演数学老师,另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话,“其实一切都是模型‘想象’出来的”。如果在这个过程中,模型说错了什么,人类就会在查看这段对话时作出纠正。而微软研究院最近的两项研究,也表明合成数据可以用来训练AI模型,这些模型一般比OpenAI的GPT-4、Google的PaLM-2更小更简单。在其中一篇论文中,GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集,里面使用的单词全部非常简单,一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型,后者能生成流畅且语法正确的故事。另一篇论文中,AI可以通过合成的Python代码进行训练,并在之后的编码任务中给出相对较好的表现。▌蜜糖还是砒霜?想要合成数据的客户有了,供应商自然也如雨后春笋般涌现,例如ScaleAI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立,其已与Google、汇丰银行、RiotGames、Illumina等公司合作,用合成数据来扩充现有数据,帮助训练人工智能模型。Gretel.ai首席执行官AliGolshan表示,合成数据的关键在于,它既能保护数据集中所有个人的隐私,又能保持数据的统计完整性。同时,合成数据还可以消除现有数据中的偏差和不平衡。“举例来说,对冲基金可以研究黑天鹅事件,我们可以创建一百种变体,看看模型能否破解;而对于银行来说,欺诈事件通常不到总数据的百分之一,Gretel的软件可以生成成千上万的欺诈案例,并以此训练AI模型。”不过,也有人不看好合成数据。反对派认为,并不是所有合成数据都经过精心调试,并能反映或改进真实世界。来自牛津、剑桥、帝国理工等机构研究人员发现,合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容,会引发模型崩溃(modelcollapse),造成不可逆的缺陷。新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误理解。随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。即便是合成数据从业人员Golshan也坦承,在劣质合成数据上进行训练可能会阻碍进步。“网上越来越多的内容都是由AI生成的。随着时间推移,这确实会导致退化,因为这些大模型产生的知识都是重复的,没有任何新的见解。...PC版:https://www.cnbeta.com.tw/articles/soft/1372401.htm手机版:https://m.cnbeta.com.tw/view/1372401.htm

封面图片

中国证监会科技监管司司长姚前被查

中国证监会科技监管司司长姚前被查中国证监会科技监管司司长、信息中心主任姚前涉嫌严重违纪违法被查。中共中央纪委国家监委网站星期五(4月26日)公布,姚前涉嫌严重违纪违法,目前正接受中央纪委国家监委驻中国证监会纪检监察组纪律审查和广东省汕尾市监察委员会监察调查。公开资料显示,今年54岁的姚前早年在燕山石化工作两年多,1997年进入中国证监会,历任信息统计部主任科员、副处长;2002年9月调任中国证券登记结算公司,历任技术部副总监、系统运行部总监。姚前2010年12月被调至中国央行,出任中国人民银行征信中心党委委员、副主任,后任央行支付司副司长。他在2018年10月调任中国证券登记结算有限责任公司总经理。姚前在2020年6月赴任证监会科技监管局局长。2024年4月26日5:17PM

封面图片

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成,其中包含大量教科书、博客文章、故事小说、WikiHow教程,共计250亿个Token。HuggingFace表示,这次开源的数据集为0.1版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展。项目地址:消息来源:线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

英伟达开源Nemotron-4 340B 可用合成数据训出特定开源通用模型

英伟达开源Nemotron-4340B可用合成数据训出特定开源通用模型英伟达发布全新开源模型Nemotron-4340B,有可能彻底改变训练LLM的方式——或许以后各行各业都不再需要昂贵的真实世界数据集了。根据英伟达官方发文,Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward,并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言。训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。Nemotron-4340B指令模型可以帮助开发者生成合成训练数据。这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制LLM的性能和稳定性。而且,为了进一步提高AI生成数据的质量,开发者还可以用Nemotron-4340B奖励模型,来筛选高质量的响应。此外,为了提高模型质量,开发者可以使用NeMoAligner和由Nemotron-4340B奖励模型标注的数据集来对齐模型。根据大模型竞技场LMSYS的消息,Nemotron-4340B已直接超越了Mixtral8x22B、Claudesonnet、Llama370B、Qwen2。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

【证监会建成了覆盖全部35家区域性股权交易中心的“监管链-业务链”双层体系】

【证监会建成了覆盖全部35家区域性股权交易中心的“监管链-业务链”双层体系】2023年10月13日10点07分老不正经报道,证监会科技监管局副局长蒋东兴10月12日在2023中国(北京)数字金融论坛上表示,经过30余年的发展,资本市场已经具备了比较好的信息化基础,当前面临着充分利用新一代信息技术向智能化转型的挑战。下一步,证监会将继续推动更多数字技术应用,推进资本市场数字化转型,增强金融服务实体经济能力。蒋东兴介绍,在“数据让监管更加智慧”方面,证监会建成了覆盖全部35家区域性股权交易中心的“监管链-业务链”双层体系,在市场数据联通、企业档案库建设等方面取得积极进展,已纳入中央网信办“区块链+股权市场”国家创新应用试点。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人