【OpenAI拾回初心?总爱乱讲话的GPT-3终于懂事了】最近,OpenAI发布了一个改良版的,更“听话”也更“安全”的GPT-

None

相关推荐

封面图片

Google加入开源战局 低配版Gemma相当于OpenAI把GPT-3开源了

Google加入开源战局低配版Gemma相当于OpenAI把GPT-3开源了怎么理解这个动作的重要性呢?你可以粗暴的理解为:这有点像现在正在训练更强大的GPT-5的OpenAI,把GPT3的低参数版给开源了。(前几天SamAltman被问过这个问题,你们是否会在未来把GPT3开源,他没有直接回答。现在看来Google针对性很强啊。)(X上一张有意思的图)根据Google官方对Gemma的介绍,它的基本信息如下:Gemma是Google开源的一个大型语言模型,而非像Gemini那样是多模态的,它基于与Gemini相同的技术构建,但完全公开并允许商用授权。Gemma模型有两个主要版本,分别是Gemma7B(70亿参数)和Gemma2B(20亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了6万亿tokens。Gemma模型的特点包括:架构细节:Gemma模型具有不同的参数规模,Gemma-2B有18层,d_model为2048,而Gemma-7B有28层,d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数,以及词汇量。新技术:Gemma采用了一些新技术,如Multi-QueryAttention、RoPEEmbeddings、GeGLU激活函数以及NormalizerLocation,这些技术有助于提高模型的性能。评测结果:Google官方宣称Gemma模型在70亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。开源情况:Gemma模型遵循一个自定义的开源协议,允许商业使用。发布完,JeffDean就对这个系列模型划了重点:Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中,性能超过了广泛使用的Llama-27B和13B模型。它在数学/科学和编程相关任务上,通常也超过了Mistral7B模型的性能。Gemma-2BIT和Gemma-7BIT这两个经过指令调整的模型版本,在基于人类偏好的安全评估中,都优于Mistral-7Bv0.2指令模型。特别是Gemma-7BIT模型在遵循指令方面也表现更佳。(有意思的是,在Google晒出的成绩对比中,阿里的千问背后的模型Qwen系列表现也很亮眼)我们也发布了一个负责任的生成性人工智能工具包(ResponsibleGenerativeAIToolkit),它为负责任地使用像Gemma模型这样的开放模型提供了资源,包括:关于设定安全政策、安全调整、安全分类器和模型评估的指导。学习可解释性工具(LearningInterpretabilityTool,简称LIT),用于调查Gemma的行为并解决潜在问题。一种构建具有最小样本量的强大安全分类器的方法论。我们发布了两个版本的模型权重:Gemma2B和Gemma7B。每个版本都提供了预训练和指令调整的变体。我们为所有主要框架提供了推理和监督式微调(SFT)的工具链:通过原生Keras3.0支持的JAX、PyTorch和TensorFlow。提供了即用型的Colab和Kaggle笔记本,以及与流行的工具如HuggingFace、MaxText、NVIDIANeMo和TensorRT-LLM的集成,使得开始使用Gemma变得简单。预训练和指令调整的Gemma模型可以在您的笔记本电脑、工作站或GoogleCloud上运行,并且可以轻松部署在VertexAI和GoogleKubernetesEngine(GKE)上。在多个AI硬件平台上的优化确保了行业领先的性能,包括NVIDIAGPU和GoogleCloudTPUs。使用条款允许所有规模的组织负责任地进行商业使用和分发。可以看到JeffDean和Google这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病CloseAI且被外界质疑安全性保障的OpenAI。现在,憋坏了的Google正式四面开战了。未来它将用Gemma对抗Llama,用Gemini对抗GPT。无论是开源还是闭源,竞争越来越焦灼了。相关文章:Google发布了一对开源人工智能模型Gemma2B和7B适用于较小的任务...PC版:https://www.cnbeta.com.tw/articles/soft/1419839.htm手机版:https://m.cnbeta.com.tw/view/1419839.htm

封面图片

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景LLaMA有多种尺寸,从70亿个参数到650亿个参数不等。Meta方面称,尽管LLaMA-13B的尺寸较小,而且少了1620亿个参数,但“在大多数基准测试中”表现优于OpenAI的GPT-3。据报道,最大的模型LLaMA-65B与DeepMind的Chinchilla70B和PaLM-540B等模型可相提并论。LLaMA是一个基础模型:它在大量未标记数据上进行训练,这使得研究人员更容易针对特定任务微调模型。由于模型更小,因此更容易针对用例进行再训练。LLaMA不仅仅是使用英语文本构建的。Meta使用20种使用拉丁语或西里尔语脚本的语言训练其模型。然而,大多数训练数据都是英语,因此模型性能更好。Meta的研究人员声称,由于模型的大小,对当前大型语言模型的访问受到限制。Meta认为“这种受限访问限制了研究人员理解这些大型语言模型如何工作以及为何工作的能力,阻碍了提高其稳健性和解决已知问题(例如偏见、侮辱和产生错误信息的可能性)的努力”。除了使模型更小之外,Meta还试图让LLaMA更易于访问,包括在非商业许可下发布它。对各种LLaMA模型的访问权限只会根据具体情况授予学术研究人员,例如隶属于政府、民间组织和学术界的研究人员。与ChatGPT一样,LLaMA与其他语言模型一样存在生成有偏见或不准确的信息。Meta的LLaMA声明承认了这一点,并表示通过共享模型,研究人员可以“更轻松地测试新方法来限制或消除大型语言模型中的这些问题。”Meta在去年5月曾推出一款面向研究人员的名为OPT-175B的大型语言模型,去年年底还发布过另一款模型Galactica,但后者被发现经常分享有偏见或不准确的信息,在48小时内被迅速下架。...PC版:https://www.cnbeta.com.tw/articles/soft/1346899.htm手机版:https://m.cnbeta.com.tw/view/1346899.htm

封面图片

SamAltman透露OpenAI未来路线图:开源GPT-3、降低GPT-4的成本、翻倍模型规模

封面图片

【有人预测GPT-4长这样:比GPT-3略大、纯文本、更注重最优计算与对齐】或许GPT-4的规模会比GPT-3略大,但“大”不会

封面图片

OpenAI 透露未来路线图:开源GPT-3、翻倍模型规模、整更多GPU

OpenAI透露未来路线图:开源GPT-3、翻倍模型规模、整更多GPUOpenAICEOSamAltman与AI开发平台HumanLoop创始人RazaHabib等20多位开发者开展了一次闭门讨论会,透露了OpenAI很多未来规划与目前的情况。1.OpenAI正在考虑开源GPT-3,他们之所以还没有开源是因为他们觉得没多少人和公司有能力妥善管理如此大型的大语言模型。2.OpenAI严重受限于GPU,导致他们推迟了许多短期计划,大部分关于ChatGPT可靠性和速度的问题都是由于GPU资源短缺造成。3.给GPT-4降本提效是OpenAI当前的首要任务。4.更长的ChatGPT上下文窗口(最高可达100万tokens)。5.GPT-4的多模态功能要到2024年才会公开,在获取更多GPU资源前不能将GPT-4的视觉版本扩展到所有人。6.最近很多文章声称的「巨型AI模型的时代已经结束」并不正确,OpenAI内部数据表明,规模与性能成正比的定律仍成立,OpenAI未来每年会将模型规模翻倍或三倍(多方信息表明GPT-4参数规模10000亿)。https://humanloop.com/blog/openai-plans频道:@TestFlightCN

封面图片

SDN的#ChitGPT回答它使用了OpenAI的GPT-3,而CSDN官方说是自己研发的By:匿名投稿什么ShitGPT

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人