一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。

一个包含大约100万个AI偏好的数据集,从teknium/OpenHermes-2.5中提取而来。 它结合了来自源数据集和另外两个模型Mixtral-8x7B-Instruct-v0.1和Nous-Hermes-2-Yi-34B的回答,并使用PairRM作为偏好模型对生成结果进行评分和排名。 该数据集可用于训练偏好模型或通过直接偏好优化等技术对齐语言模型。 | #数据集

相关推荐

封面图片

用于从各种信息源中提取知识并使用OpenAI的GPT-3模型生成答案的工具。

用于从各种信息源中提取知识并使用OpenAI的GPT-3模型生成答案的工具。 它支持从互联网、本地数据、YouTube字幕和音频等各种信息源中提取文本。可以使用RESTful API或Python库进行调用。 | #工具

封面图片

用 ORPO 将 Llama 3 的性能提升到新高度 |

用 ORPO 将 Llama 3 的性能提升到新高度 | ORPO(Odds Ratio Preference Optimization)是一种新的微调技术,可以将传统的监督微调和偏好对齐阶段合并为一个过程,从而减少计算资源和训练时间。 ORPO通过修改语言建模目标,将负对数似然损失与比值(OR)项相结合,以弱化被拒绝的响应并强化被选择的响应,让模型同时学习目标任务和人类偏好。 文章使用TRL库中的ORPOTrainer在Llama 3 8B模型上进行ORPO微调,数据集包含DPO偏好对,共1000个样本。尽管由于样本量少仅训练了1个epoch,但微调后的模型在Nous的基准测试中表现良好,所有指标上均优于Llama 3原模型。 ORPO展现了作为新的微调范式的潜力,未来在更大规模的偏好数据集上进行充分训练将产生更好的效果。选择高质量的数据集也非常重要。 当前是开源社区的活跃时期,正在发布越来越多高质量的开源模型,开源模型与专有模型的差距正在缩小,微调是获得最佳性能的关键。

封面图片

Databricks 发布最大开源大语言模型 DBRX

Databricks 发布最大开源大语言模型 DBRX 美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型 DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama 2-70B、法国MixtralAI公司的Mixtral 和 马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX 在 30多种不同的最先进模型(SOTA) 基准指标测试中,均优于前述三种大模型。 DBRX 使用混合专家架构(MoE) ,拥有16个专家模型,共1320亿参数。该模型使用 3072 英伟达 H100 GPU在12万亿个token的数据集上进行训练,最大支持32k 的上下文窗口。同时,Databrick 也开源了该模型经过指令微调(instruct finetune)的版本。 ,

封面图片

IBM宣布在watsonx上提供开源Mistral AI模型

IBM宣布在watsonx上提供开源Mistral AI模型 这有可能将延迟时间缩短 35-75%,具体取决于批量大小加快洞察时间。这是通过一个称为量化的过程实现的,该过程减少了 LLM 的模型大小和内存需求,反过来又能加快处理速度,有助于降低成本和能耗。Mixtral-8x7B 的加入扩展了 IBM 的开放式多模型战略,以满足客户的需求,为他们提供选择和灵活性,从而在其业务中扩展企业人工智能解决方案。通过数十年的人工智能研发、与 Meta 和 Hugging Face 的开放合作以及与模型领导者的合作,IBM 正在扩展其模型目录,并引入新的功能、语言和模式。IBM 的企业就绪基础模型选择及其 watsonx 人工智能和数据平台可以帮助客户利用生成式人工智能获得新的洞察力和效率,并基于信任原则创建新的业务模式。IBM 可帮助客户为金融等目标业务领域的正确用例和性价比目标选择正确的模型。Mixtral-8x7B 采用了稀疏建模(一种创新技术,只查找和使用数据中最重要的部分,以创建更高效的模型)和专家混合技术(Mixture-of-Experts)的组合,后者将擅长并解决不同部分问题的不同模型("专家")结合在一起。Mixtral-8x7B 模型因其能够快速处理和分析海量数据,提供与背景相关的见解而广为人知。IBM 软件公司产品管理与增长高级副总裁 Kareem Yusuf 博士说:"客户要求有选择性和灵活性,以便部署最适合其独特用例和业务要求的模型。通过在watsonx上提供Mixtral-8x7B和其他模型,我们不仅为他们提供了部署人工智能的可选性,还为人工智能构建者和业务领导者提供了一个强大的生态系统,使他们能够利用工具和技术推动不同行业和领域的创新。"本周,IBM还宣布在watsonx上提供由ELYZA公司开源的日本LLM模型ELYZA-japanese-Llama-2-7b。IBM还在watsonx上提供Meta的开源模型Llama-2-13B-chat和Llama-2-70B-chat以及其他第三方模型,未来几个月还将提供更多。 ... PC版: 手机版:

封面图片

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

封面图片

弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一

弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一 没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。弱智吧数据究竟如何达成这一成就,具体到论文中看。弱智发言成指令微调神器这项研究起初为解决中文大模型训练中的诸多问题:中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景不少数据集是用AI生成的,质量难以保证,容易出现事实性错误即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset。在众多数据来源中,弱智吧成了最特别的一个。由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。看来小模型还没能领悟弱智的精髓。到了Yi-34B,弱智吧版本表现就一骑绝尘了。只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。另外,在安全评估上弱智吧版本也能排上第二。对于这类现象,研究人员在分析中也给出简单猜测:可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。弱智吧上大分这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。大伙儿都比较认可的一个原因是弱智吧题目的“异质”。像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。另一个原因是弱智吧数据文本质量很高,用词准确且简洁。千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。一开始只是网友拿来拷打AI,搞搞节目效果。后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:后续版本也渐入佳境了,如2023年8月的文心一言:知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。秘塔写作猫Inspo再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。思路确实是被打开了~ ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人