YOLOv6 是美团发布的一款开源的面向工业应用的 2D 目标检测模型 [1],主要特点是速度快、精度高、部署友好,在美团众多视

YOLOv6 是美团发布的一款开源的面向工业应用的 2D 目标检测模型 [1],主要特点是速度快、精度高、部署友好,在美团众多视觉业务场景中都有着广泛的应用。 通过量化(Quantization)提升推理速度是实际工业应用中的基本操作,但由于 YOLOv6 系列模型采用了大量的重参数化模块,如何针对 YOLOv6 进行高效和高精度的量化成为一个亟待解决的问题。 本文旨在解决 YOLOv6 量化方面的难题,并以 YOLOv6s 模型为例,从训练后量化(Post-Training Quantization, PTQ)和量化感知训练(Quantization-Aware Training, QAT)两个方面进行分析,探索出了一条切实可行的量化方案。|

相关推荐

封面图片

是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,Ch

是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性: 更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。 更长的上下文:基于 FlashAttention 技术,将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限,开发者会在后续迭代升级中着重进行优化。 更高效的推理:基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。 更开放的协议:ChatGLM2-6B 权重对学术研究完全开放,在获得官方的书面许可后,亦允许商业使用。

封面图片

LightNet 是一个基于流行的暗网平台的深度学习框架,旨在为计算机视觉任务创建高效、高速的卷积神经网络(CNN)。该框架经过

LightNet 是一个基于流行的暗网平台的深度学习框架,旨在为计算机视觉任务创建高效、高速的卷积神经网络(CNN)。该框架经过改进和优化,可为各种深度学习挑战提供更通用、更强大的解决方案。 LightNet 融合了多项前沿技术和优化来提高 CNN 模型的性能。主要特点包括: ●多任务学习 除了暗网中的对象检测之外,LightNet 还经过扩展以支持语义分割学习,从而可以对图像内的对象进行更准确、更详细的分割。此功能支持训练 CNN 模型来识别和分类图像中的各个像素,从而实现更精确的对象检测和场景理解。 例如,语义分割可用于识别图像中的各个对象,例如汽车或行人,并用相应的对象类别标记图像中的每个像素。这对于各种应用都很有用,包括自动驾驶和医学图像分析。 ●2:4 结构化稀疏性 2:4 结构化稀疏技术是一种减少 CNN 模型参数数量同时保持其性能的新颖方法。这种方法使模型更加高效并且需要更少的计算,从而缩短训练和推理时间。 例如,使用 2:4 结构化稀疏性可以减少 CNN 模型的内存占用和计算要求,从而更容易部署在手机或嵌入式系统等资源受限的设备上。 ●通道修剪 通道剪枝是一种优化技术,可以减少 CNN 模型中的通道数量,而不会显着影响其准确性。此方法有助于减小模型大小和计算要求,从而在保持性能的同时缩短训练和推理时间。 例如,通道修剪可用于减少 CNN 模型中的通道数量,以便在低功耗处理器上进行实时处理,同时仍保持高精度。这对于在计算资源有限的设备上部署模型非常有用。 ●训练后量化(维护中) 训练后量化 (PTQ) 是一种减少训练后 CNN 模型的内存占用和计算要求的技术。此功能目前正在维护中,将在未来版本中提供。 ●量化感知训练(未来支持) 虽然 PTQ 被认为足以满足 NVIDIA GPU 上的 LightNet,但对于不支持每通道量化的 AI 处理器,我们可能会考虑根据需要添加对量化感知训练 (QAT) 的支持。 | #框架

封面图片

当今天吃什么成为一个困扰职场人的每日问题时,美团高薪的工程师们没能力解决这个问题吗?显然是不可能,其实是为了利润有意为之。美团外

#大公司负面消息 当今天吃什么成为一个困扰职场人的每日问题时,美团高薪的工程师们没能力解决这个问题吗?显然是不可能,其实是为了利润有意为之。美团外卖列表的排序模型比淘宝更深谙人性。 美团知道用户不可能日复一日吃同一家商家的同一个商品,总会有吃腻的一天。 基于以上洞察,模型策略上将用户常下单的商家和购买了点金排名的商家的默认置顶并在每一次下滑载入时再次出现,将其他商家展示优先级降低。并不存在浏览不完的商家,而是用户并没有机会完整浏览完有限的商家列表。 但无论客户是否在浏览后下单,都不影响美团收取商家的曝光和点击的广告费。相反,用户浏览越久进店和返回的行为越频繁,美团赚的越多,商家的经营成本越高。 美团不会将模型策略如实的告知商家,但美团运营同学在和商家沟通商家低转化率时一定会归因到商家的定价、产品组合、是否开启优惠活动、活动力度、门店装修,让商家内卷从而帮助平台筑造价格护城河。 相比淘宝快消和服装类商品的弱即时性,就餐场景的强即时性、规律性、时限性会让用户自觉警惕沉默的时间成本,从而促进用户的冲动下单。

封面图片

一个医疗大语言模型的综合评测框架,具有以下三大特点:

一个医疗大语言模型的综合评测框架,具有以下三大特点: 1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。 2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。 3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。 | #框架

封面图片

(注:神经突触与神经元的动作电位触发时间的先后关系,决定了它们连接强度是增强还是减弱。如果突触的激活时序领先于神经元的动作电位,

(注:神经突触与神经元的动作电位触发时间的先后关系,决定了它们连接强度是增强还是减弱。如果突触的激活时序领先于神经元的动作电位,那么该连接获得强化;如果突触的激活时序滞后于神经元的动作电位,那么该连接获得削弱。It's a particular learning rule that uses Spike timing to figure out how to to determine how to update the synapses. So it's kind of like if the synaptic fires into the neuron before the neuron fires, then it strengthens the synapse. And if the signals fire into the neurons shortly after the neuron fired, then it weakens the synapse.) 神经网络另一个重要的点在于loss函数的提出,它为深度学习提供了可行的训练方法。很有趣的一点是,在现实世界中,我们并没有看到对应loss函数的东西 - 进化论是以loss的方式来迭代的吗?经济系统或社会系统存在loss吗?似乎都不是。 2. 神经网络的本质 Ilya认为,大脑也好,大模型也好,本质上都是把知识压缩到一个高维的隐空间当中。每一个新的观测数据到来的时候,它就会通过连接来更新隐空间中的一些参数。知识就存储在这些连接的权重里。(I guess what is a recurring role that you have a neural network which maintains a high dimensional, hidden state, and then within observation arrives. It updates its high dimensional, hidden state through its connections in some way. You could say the knowledge is stored in the connections.)压缩的过程有点类似于人类的记忆和遗忘过程,你忘掉了绝大部分没用的信息,而只是记住了那些有用的,并且将它们整合记忆。 压缩的过程就是“寻找最小回路”(search for small circuits)的过程。在数学上,有一种理论是“最短描述长度”原则,即如果你能够找到能够产生所需数据的最小程序,那么你就能够用这个程序做出最好的预测。(If you can find the shortest program that outputs the data in your disposal, then you will be able to use it to make the best prediction possible.)这是数学上可以被证明的。但“最短描述长度”原则是一个理论原则,在实践中很难准确实现。所以在实践中,针对给定的数据集,我们只能使用神经网络找到“尽量短小”的回路。因此,可以将神经网络的训练过程理解为,慢慢将训练数据集里的信息熵迁移到神经网络的参数中,而最终沉淀下来的这些回路刚好不算太大。(If you imaine the training process of a neural network as you slowly transmit entropy from the data set to the parameters, then somehow the amount of information in the weights ends up being not very large, which would explain why the general is so well.) 如果你能高效压缩信息,那么你一定已经得到知识了。GPT已经是一个世界模型了,it knows all the intricacies。尽管你做的看似只是predict the next word这么简单的事情,但这只是优化手段而已。 自然语言是最好的latent space,而且是最容易做alignment的latent space。 3. Ilya研究生涯中的两个重要时刻。 第一个时刻,是2012年做AlexNet,Alex Krjevsky用GPU来编写足够快的卷积程序,让CNN训练变得超级快,拉开了CV时代的序幕。这是Ilya的顿悟时刻,觉得神经网络这条路是能走通的。 第二个时刻,Ilya对大模型的信心来自于早年团队的一个发现。当时,团队训练一个LSTM模型来预测Amazon评论中的下一个character,当参数从500到4000的时候,就会出现一个专门的neuron来表达评论的sentiment是正面还是负面。于是,团队猜测,当模型足够大、参数足够多的时候,句法已经被充分表达了(run out of syntax to model),多余的参数开始学会捕捉语义信息。这说明了通过“预测下一个字”的训练方法,可以让模型学到更多隐藏的信息。 4. 关于多模态。 多模态是有用的,尤其是视觉。人类大脑皮层中三分之一都用来处理视觉,缺少了视觉的神经网络作用会相当有限。 人类更多是从图像而不是语言中学习的。人类一生只会听到大概10亿个词,这个数据量是非常有限的,而更多的数据来自于视觉。 很多时候,从视觉学习比从文本学习更容易。例如颜色,尽管通过文字也可以学到颜色之间的关联,比如红色和橙色更近,和蓝色更远,但通过视觉来学习要快得多。 5. AI有逻辑吗?有意识吗? AI当然有逻辑,要不为什么AlphaGo和AlphaZero在最需要逻辑推理能力的围棋游戏中击败了人类? 如何真正说明AI有逻辑推理能力?证明真正困难的定理,写复杂的代码,用创新方法解决开放性问题。如果AI能够证明一个未经证实的定理,那么这个理由就很难辩驳。 如何判断AI是否有意识?做这样一个实验,假如未来人工智能的训练可以从零开始,通过更小的数据集来完成,那么我们可以非常小心地对训练数据进行清洗,确保数据集中不包含任何关于意识的内容,如果系统在训练中需要人类的反馈,在互动中也要非常谨慎,确保不提到任何关于意识的概念。等训练结束的时候,你和AI一起聊天,这时你告诉他关于意识的事情,你向他描述之后,想象一下,如果这个人工智能接着说,”哦,我的上帝,我一直有同样的感觉,但我不知道如何表达它“,这时就可以认为人工智能有意识了。 6. 开源 vs 闭源。 如果模型的能力不强,那么开源是一件伟大的事情。如果模型的能力过强,那么开源就变得危险。尽管目前GPT4模型的能力还算不上”过分强大“,但已经能够看到这个趋势,所以闭源是合理的。(类似于核武器?) 当然,现阶段闭源更重要的原因是商业竞争(而不是安全,Ilya的原话)。 7. 更大的模型一定会带来更好的结果。(Of course the larger neuron nets will be better.) 前些年扩大规模很容易是因为有很多计算资源都没有被充分利用,一旦重新部署过之后就会快速取得进展。但现在规模到达了某种瓶颈,算力的扩张速度变慢了。I expect deploying to continue to make progress in art from other places. The deploying stack is quite deep and I expect that there will be improvements in many layers of the stack and together they will still lead to progress being very robust. 我预期我们将发现deep learning中很多尚未被发现的新属性,而这些新属性的应用将会让模型的效果变得更好。5-10年之后的模型能力一定会远远强过现在的模型。 附三个访谈的链接: 2020年5月 Lex Fridman AI Podcast 2023年3月 黄仁勋 CEO 与 OpenAI 联合创始人及首席科学家 Ilya Sutskever 关于 AI 及 ChatGPT 的对话 2023年4月 OpenAI联合创始人首席科学家AI Ilya Sutskever斯坦福大学内部演讲

封面图片

【周鸿祎关于大模型的2023年100条语录】

【周鸿祎关于大模型的2023年100条语录】 1、2024大模型发展四大预测:大模型不会垄断,不会成为操作系统,将会无处不在。不像操作系统全世界就那么几套; 大模型一方面追求“大”,另一方面也会追求“小”,汽车上可能会部署出来更多的大模型; 多模态将成为国产大模型的标配;国内会出现很多垂直大模型,走进百行千业,向产业化方向发展。 2、不要高估大模型现在的能力,也不要低估大模型未来的潜力。 3、建立 AI 信仰:相信 Al是真 Al、相信Al是工业革命级技术、相信 AI将重塑所有业务、相信不拥抱AI的公司和个人都将被淘汰。 4、All in AI 要思考的三个问题:对上对下一一组织内部所有人是否都在用AI?对内一内部业务流程被改造会怎么样?对外一一产品和服务被AI加持会怎么样? 5、未来衡量公司前景要看“含 AI量”:业务中有多少环节被 AI 优化、被 AI 赋能、被AI改造。 6、我是做安全出身的,本来应该是最悲观的人,因为我们看到的往往都是技术带来的负面效应。但在大模型这件事上,我是坚定的发展派。 7、中国不发展大模型才是最大的不安全,虽仍存差距,中国大模型发展速度已是奇迹。 8、大模型不是风口和泡沫。即使是风口,也得吹五年到十年。对创业者来说,还有十年红利期。 9、场景红利是中国大模型弯道超车的关键,大模型真正的机会是结合场景发展垂直大模型。 10、大模型现在还很「高大上」,要把它拉下神坛,真正的走进千家万户,影响百行干业,这才是大模型引发工业革命的道路。 11、大模型的未来不会成为操作系统,而是会成为个人电脑,成为数字化系统的标配。 12、未来大模型在中国的发展之路:不会有垄断,不会只有3-5个大模型,大模型将无处不在。 13、开源就像是 AK47:价格便宜,火力足,分量够,能够实现「科技平权」。 14、大模型领域,巨头一定会用全家桶的思路,把自己的全家桶产品装上它们的大模型。用户会就近使用,所以存量市场在未来很难有大的改变。 15、80% 去中心化的企业级市场,蕴含着巨大的机会。 16、大模型能产生知识模糊、制造知识幻觉,可以看成创造力的展现。在此之前,世界上所有的动物只有人类会瞎编。 17、国家大战略是产业数字化。互联网企业要甘当配角,顺势而为,把数字化能力和大模型能力赋能传统企业,特别是制造业,帮助他们实现数字化、智能化。 18、行业大模型可能是一个幻觉。不会出现公有服务的行业大模型,但很多企业仍然会做私有的行业大模型。 19、垂直大模型是创业者的金光大道。 20、在企业里面做大模型,要忘掉 ChatGPT 这个榜样。 21、大模型的六个垂直的趋势:行业垂直化、企业垂直化、专业垂直化、小型垂直化、分布式垂直化、专有垂直化。 22、把大模型看低一点,就是企业业务系统的智能化的升级。企业业务系统分成很多垂直的部分,大模型也应该做到专业垂直。 23、企业里不一定需要GPT4 这样的全才、通才或者天才,而是需要有垂直领域经验和技能的人才,这就是垂直模型要干的事情。 24、(创业者)不要等到大模型无所不能才开始做,只要想清楚了产品应用的场景,现在就能做。 25、大模型创业要快速行动,first move,just do it。 26、大模型最常用的功能只有两个:知识问答、写作生成。应该先把大模型这两个功能找到各种细化的垂直场景应用。 27、大模型不是万能的,很多业务系统是不能被取代的。创业者千万不要介入旧系统的改造之中,陷入其中可能长期无法交付。 28、大模型要跟现有的系统做一定的隔离,尽量少发生 API,函数调用的联系。 29、人工智能应当作为副驾驶,不要让它来做出不可撤销的决定。 30、坚持 AI 普惠的原则,大模型发展要以人为本。 31、做大模型的创业,不要给企业宣扬有了这个东西就会裁员。 32、能用程序解决的问题千万不要用自然语言去解决问题。不要去迷信 LUI,未来 CUI、GUI将成为主流。 33、构建企业级大模型,应该遵循安全、向普、可信、可控。 34、永远让人在决策的回路上,而不能让大模型决策。 35、大模型技术的三大发展方向:机器人、自动驾驶、科学研究。 36、大模型是工业革命级别的技术创新,美国AIlin Al,正掀起一轮新的产业革命。 37、大模型企业级场景应用要炼就“九阳神功”一:私有化部署千亿通用大模型。二:AI生产力工具集。三:个性化定制数字员工。四:数据工厂、知识工厂、模型工厂。五:基础大模型。六:训练垂直模型。七:智能体工场。八:业务连接与协作平台。九:全面AI化。 38、做大模型要坚持长期主义,肩负起担当,保持理想主义。 39、绝大多数人这辈子的使命是用好 Al,而不是做Al。 40、数字人最重要的是能够有自己的人设,最后能够自主学习,能够连接外围系统。 41、未来的数字人不是简单的对口型的形象,也不是简单的念稿的机器,而是能够真正跟每个人进行对话、交流,进行帮助、讨论。 42、不是只有当老板才有助理。我们做人工智能,最重要的是让每个人都可以有一堆 AI 助理为自己所用。 43、每个企业员工都可以有自己的数字专家、数字助手。 44、数字永生这个概念离我们并不遇远,我们可能模拟出来一个伊隆,马斯克,一个爱因斯坦,一个周鸿祎,数字人模拟他们的说话口吻、思维方式、知识和积累,使得我们可以跟他们去交流。 45、数字人可以让我们换一种读书的方式,不是死读书,而是直接和书里的人产生交流。 46、人工智能不是新物种,是新工具。 47、怎么保证大模型不说错话,训练另外一个 大模型来训练这个大模型,这不是个笑话。 48、中国已经进入“百模大战”,各家做大模型基础能力都差不多,比拼的是谁对普通人来说更好用。 49、大模型发展 3个月,相当于历史上的技术发展30年。 50、大模型不会造成大规模失业,反而提升效率。 51、通用技术才能引发工业革命,像水电一样输送到办公E族。 52、大模型价值不仅仅在于使用量,在于未来把 AI能力通用化、泛化、垂直化。 53、未来在职场上,熟练掌握 AI 有时候要比职场经验更有优势。 54、大模型能让小白变成专家,能帮助一个普通的坏蛋写出出色的钓鱼软件,与此同时也能扮演“正义助手”。 55、我们不能把大模型当作黑盒子,了解工作原理,才能从根本上解决安全问题。 56、AI 进化应该以人为本,大模型应该成为人类的朋友和助手。 57、大模型不是玩具,不是搜索引擎、不是聊天机器人、这些都是它亲民推广的伪装,背后强大的超级大脑代表着超级人工智能时代的来临。 58、大模型出来前,所有自动驾驶都只是辅助驾驶。 59、只有有了多模态全面的能力,才预示着大模型真正地走上一个新的台阶。 60、谁真正通过大模型把人类的语言做了重新的编码、学习、训练,也就对人类掌握的知识有了一个重新的压缩和蒸馏。 61、GPT 的模型、算法、路线是已知的,但是出现很多现象 OpenAI 的人也没法解释,比如智力的突变,语言及逻辑的迁移,像是从猿到人的变化。 62、大模型帮我们解锁了很多原来只有专业人士才能解锁的技能,比如写代码、绘画,让有才华但缺乏专业训练的人也可以发挥自己才华。 63、超级人工智能不应该先解决娱乐问题,应该反向解决常温超导和可控核聚变问题,帮助人类实现能源自由。 64、搜索不会犯错,是因为搜索不智能,真正的人工智能一定会犯错,它的错误来自海量知识在推理过程中产生的突变。 65、在大模型面前,人类自认为独有的特质不存在了:想象力、创造力。 66、不必质疑大模型的创作是模仿和借鉴,人类写东西哪个不是模仿和借鉴呢? 67、我们老说眼见为实,耳听为虚。现在来看,未来互联网上大量的内容会不会都是AI生成的?所以希望大家正确地使用文生视频能力。 68、数字人是未来人工智能大模型对我们每个人和对每个企业来说最合适的入口。 69、未来,有不同人设,不同经历,不同角色的数字人可以在人工智能驱动下,一起来帮人们做脑力激荡,完成共同的目标。 70、未来数字人会继续迭代,调用大模型的能力。拥有大模型不具备的长期记忆力。同时,数字人可以有自己的目标、规划和分解能力,使得它可以不断地调用各种垂直的模型完成任务。 71、未来人工智能的发展不仅仅是大模型核心能力的增加,外部功能的包装,人工智能跟每个人的工作、生活贴得更近,每个人能更自如地使用人工智能。 72、大模型会一本正经胡说八道,恰是大模型真正智能的体现,也是最可怕的地方。因为人才会犯错误,才会胡编乱造,能描绘不存在的东西。 73、大模型的训练过程分成三层:知识铺垫、基于人工反馈的强化学习、价值观的校正纠偏,很像一个小孩从小到大学习的过程。 74、用人类聊天素材训练出来的机器人不只是“人工智障”,更是“人工杠精”。 75、任何行业的APP、软件、网站、应用,都值得用大模型的能力重塑一遍。搭不上这班车就会被淘汰。 76、大模型将作为“发电厂”把大数据加工成“水”和“电”,通过API接口以SaaS服务的方式输出给千行百业,全面提升人类社会智能化水平。 77、大模型可以极大地提高劳动生产率。用的人越多,教它的技能越多,它就能进入更多新的领域。 78、未来每个行业、每个公司、甚至每个人都会有自己的私有化的大模型。 79、OpenAI在ChatGPT的研发上做到了“四大一强”:大模型、大数据、大算力、大标注、强算法。 80、我们中国人的工程化能力很强,我们模仿能力也很强,后来居上也不是不可能。 81、一人捅破窗户纸,千军万马独木桥。从0到1难,但中国公司技术打磨很强。剩下就是时间,问题。 82、数据获取和清洗、人工知识训练和场景是大模型未来发展的三个关键。 83、“机器人造机器人”可能会从大模型具备写软件能力时开始。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人