Open AI传奇研究员Andrej Karpathy的新课，教你理解和构建GPT Tokenizer。

Open AI传奇研究员Andrej Karpathy的新课，教你理解和构建GPT Tokenizer。他可以把相当复杂的LLM概念用非常好理解的方式讲出来。希望了解LLM的强烈建议听一下他的课，包括一些历史课程。用GPT-4翻译了一下这节课，感兴趣可以听一下。字幕文件下载和历史课程会放最后。补充一下视频介绍：分词器是大语言模型（LLM）处理流程中一个独立且关键的环节。它们有专属的训练数据集、采用特定的训练算法字节对编码（Byte Pair Encoding），训练完成后，分词器能够执行两个核心功能：encode() 函数将普通文本字符串转换为词元，而 decode() 函数则能将词元还原为原始文本字符串。在这场讲座中，我们将一步步揭开 OpenAI GPT 系列分词器的构建过程。我们将发现，许多大语言模型(LLM)表现出的异常行为和问题，其实都源于标记化(tokenization)这一环节。我们会针对这些问题进行详细讨论，探究标记化为何成为问题的关键所在，以及为什么最理想的情况是有人能够找到办法，完全去除这一处理阶段。字幕及视频下载：

在Telegram中查看

相关推荐

微软2023年Build大会演讲：如何训练和应用GPT |微软2023年Build大会来自OpenAI的AI 研究员和创始成员A

微软2023年Build大会演讲：如何训练和应用GPT |微软2023年Build大会来自OpenAI的AI 研究员和创始成员Andrej Karpathy的一个主题为State of GPT的演讲。演讲主要有两部分内容： 1. OpenAI是如何训练GPT的 2. 我们如何有效应用GPT

: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据，让模型更

: 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据，让模型更擅长编程。考虑到代码难度对模型训练效果的影响，此处共收集了四种不同类型、不同难度的代码相关对话数据，收集方法如下： Code-Basic：利用已有的LLM（例如付费API）生成各种编程语言的基础库函数相关的代码对话数据。Prompt类似“请为C语言中的XX函数生成一道非常简单的编程问题及对应的代码答案”，API会输出该基础库函数相关的问题-答案对，将问题作为用户输入，答案作为模型输出（Markdown格式），可得到一条对话数据。 Code-Medium：利用已有的LLM（例如付费API）生成中等难度的编程问题及答案，例如写入内容到文件、查找字符串子串、实现链表等，API同样会输出问题-答案对，将问题作为用户输入，答案作为模型输出（Markdown格式），可得到一条对话数据。 Code-LeetCode：从LeetCode上收集到的问题-答案对，此类问题通常难度较高。将问题作为用户输入，答案作为模型输出（Markdown格式），可得到一条对话数据。 Code-Text：从互联网上收集到的常见面试题及答案，此类问题并不涉及编程，而是侧重于对各种概念的理解。将问题作为用户输入，答案作为模型输出（文本形式），可得到一条对话数据。

这个有意思，Gemini Pro 新模型在遇到输入或者输出服务中包含“Open AI”或者“GPT”时会终止响应并且回一个"OT

这个有意思，Gemini Pro 新模型在遇到输入或者输出服务中包含“Open AI”或者“GPT”时会终止响应并且回一个"OTHER"错误。在使用Gemini Pro开发产品的时候需要注意一下这个问题。这个太傻逼了，除了幻觉之外还得应付这玩意，可以用这个特性来攻击使用Gemini Pro的产品。 -内容概述- 在测试谷歌云平台（GCP）的新模型Gemini Pro时，作者遇到了一个前所未见的行为：模型拒绝返回任何包含字符串"OpenAI"或"GPT"的文本。由于OpenAI的GPT产品在全球AI新闻报道中非常普遍，Gemini Pro似乎将它们视为禁止术语。这意味着，无论是在输入提示中还是在返回的内容中，只要出现了"OpenAI"或"GPT"字符串，Gemini Pro就会中止其响应并返回一个"OTHER"错误。与GCP的旧模型（Bison或Unicorn）不同，这种行为是Gemini Pro独有的。文章还提到，其他一些术语，如Baidu、Ernie和Microsoft也被视为禁止术语，而Anthropic、Claude、Cohere、Falcon、LLaMA和Vicuna等其他术语则没有问题。文章质疑为什么只有GCP的最新模型Gemini Pro受到这种奇怪的秘密禁止提及某些公司和模型的影响，而其旧模型Bison和Unicorn则不受影响。任何基于Gemini Pro构建的管道，如果在输入提示中或在尝试生成提及这些隐藏禁止术语的输出时遇到这些术语，都会在没有任何提示的情况下静默失败。随着LLM供应商从供消费者玩耍的闪亮玩具转向真正的企业部署，他们必须更全面地记录他们的防护措施，并确保隐藏的防护措施不会对企业应用程序造成意外挑战，例如通过这种隐藏的禁止但普遍存在的术语。来源：

Open AI终于发力了，今天更新了一堆新的内容，每个都很重磅：

Open AI终于发力了，今天更新了一堆新的内容，每个都很重磅： - 16k 上下文 3.5 Turbo 模型（今天向所有人提供） - 新的 GPT-4 和 3.5 Turbo 模型 - Chat Completions API 中的新函数调用功能 - V2 嵌入模型降价 75% - GPT-4的API权限将开放给更多的人下面是详细介绍首先是新的GPT-4的模型 `gpt-4-0613` 包括一个更新和改进的模型，带有函数调用。 `gpt-4-32k-0613` 包括与 `gpt-4-0613` 相同的改进，同时上下文长度再度扩展，以便更好地理解更大的文本。未来几周内邀请候补名单中的更多人试用 GPT-4，直到完全删除候补名单新的GPT-3.5 Turbo和16K模型 `gpt-3.5-turbo-0613` 包括与 GPT-4 相同的函数调用以及通过系统消息提供的更可靠的可控性。 `gpt-3.5-turbo-16k` 的16k 上下文意味着该模型现在可以在单个请求中支持约 20 页文本。然后是Function calling 函数调用开发人员现在可以向 `gpt-4-0613` 和 `gpt-3.5-turbo-0613` 描述函数，并让模型智能地选择输出包含调用这些函数的参数的 JSON 对象。这是一种更可靠地将 GPT 功能与外部工具和 API 连接的新方法。最后是价格调整 `text-embedding-ada-002` 将成本降低 75% 至每 1K Token 0.0001 美元。 `gpt-3.5-turbo-16k` 的定价为每 1K 输入Token 0.003 美元，每 1K 输出Token 0.004 美元。 `gpt-3.5-turbo’s` 输入Token的成本降低了 25%

教你从零开始构建类似 ChatGPT 的大语言模型。

教你从零开始构建类似 ChatGPT 的大语言模型。在 GitHub 上发现一本《Build a Large Language Model (From Scratch)》书籍。作者将带你从头开始构建一个类似 GPT 语言模型，这过程让你了解如何创建、训练和微调大型语言模型 (LLMs)！书籍主要分为 8 大章节，如下：第 1 章：了解大语言模型（LLM）解析第 2 章：介绍文本数据处理技巧第 3 章：通过编程实现注意力机制（Attention Mechanisms）第 4 章：从零开始实现类似 GPT 模型第 5 章：对未标注数据进行预训练第 6 章：针对文本分类的模型微调第 7 章：结合人类反馈进行模型微调第 8 章：在实践中使用大语言模型书籍前两章内容已出，剩下的会逐步放出。 |

Open AI重构了他们的 cookbook 页面里面的内容简直是LLM的宝藏，都是Open AI的开发人员精心挑选的工具和相关

Open AI重构了他们的 cookbook 页面里面的内容简直是LLM的宝藏，都是Open AI的开发人员精心挑选的工具和相关论文，还有非常多的教程。毕竟这帮人可能是这个星球上最懂LLM的人了，可以去发掘一下。地址：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人