OpenAI公布GPT-4：更强更可靠可在考试中超过90%的人类

OpenAI公布GPT-4：更强更可靠可在考试中超过90%的人类OpenAI于2020年发布了GPT（生成型预训练变换模型）-3（生成型预训练变换模型），并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT，这两款产品极大地吸引了公众的关注，并刺激其他科技公司更积极地追求人工智能（AI）。OpenAI周二表示，在内部评估中，相较于GPT-3.5，GPT-4产生正确回应的可能性要高出40%。而且GPT-4是多模态的，同时支持文本和图像输入功能。OpenAI称，GPT-4比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这使得它的运行成本更高。据OpenAI介绍，在某些情况下，GPT-4比之前的GPT-3.5版本有了巨大改进，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。例如，GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。OpenAI表示，虽然两个版本在日常对话中看起来很相似，但当任务复杂到一定程度时，差异就表现出来了，GPT-4更可靠、更有创造力，能够处理更微妙的指令。不过，OpenAI也警告称，GPT-4还不完美，在许多情况下，它的能力不如人类。该公司表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，比如社会偏见、幻觉和对抗性提示。”OpenAI透露，摩根士丹利正在使用GPT-4来组织数据，而电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。其他客户还包括语言学习公司Duolingo、KhanAcademy和冰岛政府。OpenAI合作伙伴微软周二表示，新版必应搜索引擎将使用GPT-4。...PC版：https://www.cnbeta.com.tw/articles/soft/1349455.htm手机版：https://m.cnbeta.com.tw/view/1349455.htm

在Telegram中查看

相关推荐

【OpenAI：GPT-4在许多标准化测试中比人类表现得更好】

【OpenAI：GPT-4在许多标准化测试中比人类表现得更好】2023年03月15日02点52分老不正经报道，Open-AI刚刚公布大型语言模型的最新版本——GPT-4，该版本比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这使得它的运行成本更高。OpenAI表示，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。例如，GPT-4在模拟律师考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。(CNBC)

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型，可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4的得分约为前10%，而GPT-3.5的得分约为倒数10%。在多语言测试中，GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌)，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4，未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单，每1kprompttokens的价格为$0.03，每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行，同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同，BingChat可联网获取实时信息并且免费。——投稿：@ZaiHuabot频道：@TestFlightCN

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布，其研究人员训练了一个基于GPT-4的模型，它被称为CriticGPT，用于捕捉ChatGPT代码输出中的错误。简单来说就是，CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称，如果通过CriticGPT获得帮助审查ChatGPT编写的代码，人类训练者的审查效果比没有获得这种帮助的人强60%；在CriticGPT帮助下，他们得出的批评结论比自己单独做的更全面。群友：狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

OpenAI正式推出GPT-4 提供文本图像综合访问能力

OpenAI正式推出GPT-4提供文本图像综合访问能力在一系列领域--包括带有文字和照片、图表或屏幕截图的文件--GPT-4表现出与纯文本输入类似的能力。此外，它还可以使用为纯文本语言模型开发的测试时间技术，包括少数几个镜头和思维链提示。坏消息是，图像输入目前还没有向公众开放，因为它们处于"研究预览"模式。目前还没有关于何时能普遍使用的消息。新版本还将允许用户改变GPT-4答案的语气，博文指出：与经典的ChatGPT个性的固定言辞、语气和风格不同，开发者（以及很快ChatGPT用户）现在可以通过在"系统"消息中描述这些方向来规定他们的人工智能的风格和任务。系统消息允许API用户在一定范围内大幅定制他们的用户体验。该博客还展示了一些性能图表来说明GPT-4的改进。在一个案例中，OpenAI让聊天机器人参加了一些模拟考试。我们通过使用最新的公开测试（就奥林匹克数学和AP自由回答问题而言）或购买2022-2023年版本的练习考试来进行，我们没有为这些考试做专门的培训。上图显示，与GPT-3.5相比，GPT-4在大多数情况下提供的考试成绩要好得多与以前的版本一样，GPT-4在获取更多的最新科目信息方面是有限的，因为它只能回溯到2021年9月。OpenAI还表示，新版本"相对于以前的模型，大大减少了信口开河的现象"，但它"并不完全可靠"。如果他们注册了一个等待名单，GPT-4的API目前可供开发者使用，普通人如果注册了ChatGPTPlus，就可以在有限的基础上访问GPT-4，该费用为每月20美元。博文提到，OpenAI可能会推出另一个订阅级别，允许更多的人访问。...PC版：https://www.cnbeta.com.tw/articles/soft/1349447.htm手机版：https://m.cnbeta.com.tw/view/1349447.htm

OpenAI总裁：GPT-4并不完美但却绝对与众不同

OpenAI总裁：GPT-4并不完美但却绝对与众不同GPT-4在其前身GPT-3的基础上，在许多关键方面进行了改进，例如提供了更多真实的陈述，并允许开发人员更容易控制其风格和行为。从某种意义上说，GPT-4也是多模式的，因为它可以理解图像，能给照片添加注释，甚至详细描述照片中的内容。但GPT-4也有严重的缺陷。就像GPT-3一样，该模型会产生“幻觉”（即模型聚合的文本与源文本无关或不够准确），并会犯下基本的推理错误。OpenAI在自己的博客上举了一个例子，GPT-4将“猫王”埃尔维斯·普雷斯利（ElvisPresley）描述为“演员的儿子”，但实际上他的父母都不是演员。当被要求将GPT-4与GPT-3进行比较时，布罗克曼只给出了四个字回答：与众不同。他解释称：“GPT-4绝对与众不同，尽管它还存在很多问题和错误。但你可以看到其在微积分或法律等学科技能方面的跃升。它在某些领域的表现曾很糟糕，现在却已经达到超越普通人的水准。”测试结果支持了布罗克曼的观点。在高考微积分考试中，GPT-4得4分(满分5分)，GPT-3得1分，介于GPT-3和GPT-4之间的GPT-3.5也得4分。在模拟律师考试中，GPT-4成绩进入了前10%行列，而GPT-3.5的分数在后10%左右徘徊。与此同时，GPT-4更受人关注的地方在于上面提到的多模式。与GPT-3和GPT-3.5不同，它们只能接受文本提示，例如可以要求“写一篇关于长颈鹿的文章”，而GPT-4可以同时接受图像和文本提示来执行某些操作，比如识别在塞伦盖蒂拍摄的长颈鹿图像，并给出基本的内容描述。这是因为GPT-4是针对图像和文本数据进行培训的，而它的前身只针对文本进行了培训。OpenAI表示，培训数据来自“各种合法授权的、公开可用的数据源，其中可能包括公开可用的个人信息”，但当被要求提供细节时，布罗克曼表示拒绝。训练数据以前也曾让OpenAI陷入法律纠纷。GPT-4的图像理解能力给人留下了相当深刻的印象。例如，输入提示“这张图片有什么好笑的？GPT-4会将整张图片分解，并正确地解释了这个笑话的笑点。目前，只有一个合作伙伴可以使用GPT-4的图像分析功能，这是一款针对视障人士的辅助应用程序，名为BeMyEyes。布罗克曼说，在OpenAI评估风险和利弊的过程中，无论何时，更广泛的推广都将是“缓慢而有意的”。他还称：“有些政策问题也需要解决，比如面部识别和如何处理人的图像。我们需要找出危险区域在哪里，红线在哪里，然后随着时间的推移找到解决方案。”OpenAI在其文本到图像转换系统Dall-E2上也遇到了类似伦理困境。在最初禁用该功能后，OpenAI允许客户上传人脸，以使用AI支持的图像生成系统对其进行编辑。当时，OpenAI声称，其安全系统的升级使面部编辑功能成为可能，因为它将深度造假以及试图创造色情、政治和暴力内容的潜在危害降至最低。另一个长期问题是防止GPT-4在无意中被用于可能造成伤害的方式使用。该模型发布几小时后，以色列网络安全初创公司AdversaAI发布了一篇博客文章，演示了绕过OpenAI的内容过滤器并让GPT-4生成钓鱼电子邮件、对同性恋者的攻击性描述以及其他令人反感文本的方法。这在语言模型领域并不是新问题。Facebook母公司Meta的聊天机器人BlenderBot和OpenAI的ChatGPT也曾被诱惑输出不恰当的内容，甚至透露了它们内部工作的敏感细节。但包括记者在内的许多人曾希望，GPT-4可能会在这方面带来重大改进。当被问及GPT-4的健壮性时，布罗克曼强调，该模型已经经过了六个月的安全培训。在内部测试中，它对OpenAI使用政策不允许的内容请求做出响应的可能性比GPT-3.5低82%，产生“事实”响应的可能性比GPT-3.5高40%。布罗克曼说：“我们花了很多时间试图了解GPT-4的能力。我们正在不断更新，包括一系列改进，这样该模型就更具可扩展性，以适应人们希望它拥有的个性或模式。”坦率地说，早期的现实测试结果并不是那么让人满意。除了AdversaAI测试之外，微软的聊天机器人BingChat也被证明非常容易越狱。使用精心设计的输入，用户能够让该聊天机器人表达爱意，发出威胁伤害，为大屠杀辩护，并发明阴谋论。布罗克曼并未否认GPT-4在这方面的不足，但他强调了该模型的新限制工具，包括被称为“系统”消息的API级功能。系统消息本质上是为GPT-4的交互设定基调并建立界限的指令。例如，一条系统消息可能是这样写的：“你是一位总是以苏格拉底风格回答问题的导师。你永远不会给学生答案，而是总是试着问正确的问题，帮助他们学会独立思考。”其思想是，系统消息充当护栏，防止GPT-4偏离轨道。布罗克曼说：“真正弄清楚GPT-4的语气、风格和实质一直是我们非常关注的问题。我认为我们开始更多地了解如何进行工程设计，如何拥有一个可重复的过程，让你得到对人们真正有用的可预测结果。”布罗克曼还提到了Evals，这是OpenAI最新的开源软件框架，用于评估其AI模型的性能，这是OpenAI致力于“增强”其模型的标志。Evals允许用户开发和运行评估模型(如GPT-4)的基准测试，同时检查它们的性能，这是一种众包的模型测试方法。布罗克曼说：“有了Evals，我们可以更好地看到用户关心的用例，并可以对其进行测试。我们之所以开源这个框架，部分原因是我们不再每隔三个月发布一个新模型以不断改进。你不会制造你不能测量的东西，对吧？但随着我们推出新版模型，我们至少可以知道发生了哪些变化。”布罗克曼还被问道，OpenAI是否会补偿人们用Evals测试它的模型？他不愿就此做出承诺，但他确实指出，在有限的时间内，OpenAI允许提出申请的Eevals用户提前访问GPT-4API。布罗克曼还谈到了GPT-4的上下文窗口，该窗口指的是模型在生成额外文本之前可以考虑的文本。OpenAI正在测试一种版本的GPT-4，它可以“记住”大约50页内容，是普通GPT-4“内存”的5倍，是GPT-3的8倍。布罗克曼认为，扩展的上下文窗口会带来新的、以前从未探索过的用例，特别是在企业中。他设想了一款为公司打造的AI聊天机器人，它可以利用来自不同来源(包括各部门员工)的背景和知识，以一种非常内行但具有对话性的方式回答问题。这并不是一个新概念。但布罗克曼认为，GPT-4的答案将比目前其他聊天机器人和搜索引擎提供的答案有用得多。他说：“以前，模型根本不知道你是谁，你对什么感兴趣等。而拥有更大的上下文窗口肯定会让它变得更强，从而大大增强它能为人们提供的支持。”...PC版：https://www.cnbeta.com.tw/articles/soft/1349631.htm手机版：https://m.cnbeta.com.tw/view/1349631.htm

OpenAI 将自定义数据功能引入 GPT-3.5 Turbo

OpenAI将自定义数据功能引入GPT-3.5Turbo从而在构建特定行为的同时更轻松地提高文本生成AI模型的可靠性。OpenAI，GPT-3.5的微调版本在“某些细分任务”上可以匹配甚至超越该公司旗舰模型GPT-4的基本功能。通过微调，通过OpenAI的API使用GPT-3.5Turbo的公司可以使模型更好地遵循指令，例如让它始终以给定的语言进行响应。此外，微调使OpenAI客户能够缩短文本提示，以加快API调用并降低成本。微调成本如下：训练：0.008美元/1KToken使用输入：0.012美元/1KToken使用输出：0.016美元/1KTokenOpenAI表示，对GPT-4的微调支持（与GPT-3.5不同，除了文本之外还可以理解图像）将于今年秋季晚些时候推出。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人