运行时超轻量,高效,移植简单的深度学习模型

运行时超轻量,高效,移植简单的深度学习模型MegCC是一个面向推理的深度学习模型编译器,具有如下特点:极其轻量的运行时库:只编译mobilenetv1模型进行推理情况下,strip符号后,整个运行时二进制大小只有81KB。高性能:Arm上的每一个Kernel都是经过人工精心调优的,同样的模型,性能比MegEngine好。方便移植:运行时所有Code都是纯C代码,可以方便在Arm,X86,裸板中进行移植。低内存使用,快启动:模型编译期间会进行内存规划,尽可能的复用内存,并进行静态绑定,减少运行时开销。MegCC主要由两部分组成:编译器:负责将模型进行编译,优化,最终生成新模型和对应的Kernelsruntime运行时:运行时需要和生成的Kernels结合在一起进行编译,编译完成之后可以加载编译器生成的模型,并计算输出结果MegCC模型编译器是基于MLIR框架构建起来的,使用MLIR的IR进行图优化,内存规划以及Kernel生成,目前MegCC生成的Kernel大多数都是基于人工优化之后写好的模板生成的。MegCC支持多种场景的模型编译,不仅仅包含静态shape编译,而且还支持动态shape的编译,多个模型同时编译,以及同一个模型多种shape同时编译,另外为了获得极致的最小运行时库,还提供必要的纯C形式的CV算子生成。模型编译完成之后,MegCC会生成两个产物,分别是:优化之后的新模型:这个模型里面包含整个计算图的信息,以及每一个Operator运行时的内存规划信息,输入输出信息,计算Kernel的信息运行这些模型对应的Kernel:上面模型运行时候需要的所有高性能Kernel的集合。MegCCruntime会在运行时会加载生成的模型,并调用生成的高性能Kernel进行计算,并输出计算结果,目前测试一个可以高效运行mobilenetv1的可执行文件大小仅仅只需要81KB。MegCC现在支持的平台处理器平台有Arm64/ArmV7/X86/risc-v/单片机,所有支持的Operator列表见:.

相关推荐

封面图片

Google最新Android运行时更新可将应用启动时间缩短多达30%

Google最新Android运行时更新可将应用启动时间缩短多达30%Google本周在Android开发者博客(AndroidDevelopersBlog)上发表文章称,ART的定期更新为Android设备提供了大量功能,包括安全修复、改善内存使用、提高执行速度等。最近的更新还统一了数亿设备的核心OpenJDKAPI,包括所有Android12+智能手机和平板电脑。Google还表示,这些更新将"很快"提供给AndroidGo。ART在Android12中成为模块化组件,结束了多年来要求操作系统组件具有明确API边界的单片式更新计划。旧系统使得ART难以独立于操作系统的其他部分进行更新,而最近向模块化结构的转变使得Google可以通过PlayStore进行更新,而不必每次都推送完整的系统更新。独立更新ART的能力带来了许多好处,包括更无缝地推出安全补丁和性能优化。它还帮助开发人员获得了OpenJDK的改进和编译器优化,这对Java和Kotlin都有好处。Google还声称,在最新的ART13更新中,运行时和编译器优化使应用程序的启动时间"在某些设备上提高了30%"。ART更新的另一个显著优势是,它允许开发人员使用最新的编程功能。正如Google解释的那样,ART13提供了OpenJDK11核心语言功能,该公司称这是有史以来Android设备采用OpenJDK新版本最快的一次。虽然ART13已经朝着正确的方向迈出了一步,但Google表示它正在开发ART14,并将在"未来几个月"向所有兼容设备推出。ART14将包括OpenJDK17支持,以及新的编译器和运行时优化,Google称这将"提高性能,同时减少代码大小"。下一代ART版本最棒的地方在于,它并不局限于Android14设备,这意味着即使你的手机运行的是Android12或13,你也可以在手机上使用它。这在碎片化严重的Android生态系统中是个好消息,据报道,截至2023年4月,也就是Android13公开发布近一年后,只有12%的Android设备运行Android13。...PC版:https://www.cnbeta.com.tw/articles/soft/1379031.htm手机版:https://m.cnbeta.com.tw/view/1379031.htm

封面图片

华为云开源多沙箱容器运行时 Kuasar,代码上线

华为云开源多沙箱容器运行时Kuasar,代码上线Kuasar是一个高效的容器运行时,通过支持多种沙盒技术,提供云原生、全场景的容器解决方案。它用Rust编写,提供基于沙箱API的标准沙箱抽象。此外,Kuasar提供了优化的框架来加速容器启动并减少不必要的开销。https://github.com/kuasar-io/kuasar来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

FIXTIM:修复 macOS 上的每个运行时错误,

FIXTIM:修复macOS上的每个运行时错误,桌面上的截图很糟糕滞后输入法编辑器(IME)核心音频流中断AirDrop故障或效率低下Wi-Fi无法扫描或连接任何无响应或旋转的应用程序iCloud同步问题Xcode不寻找设备Xcode模拟器无法启动调试服务器没有响应等标签:#macOS#系统修复#系统优化链接:https://www.appmiu.com/20250.html

封面图片

多人游戏引擎,基于WebAssembly、Rust和WebGPU运行时,用于构建高性能的和3D应用

多人游戏引擎,基于WebAssembly、Rust和WebGPU运行时,用于构建高性能的多人游戏和3D应用1.无缝联网。Ambient既是你的服务器又是你的客户端。你所需要做的就是建立你的服务器和/或客户端逻辑:运行时为你处理数据的同步。2.隔离性。你为Ambient构建的项目通过WebAssembly的力量在隔离状态下执行--因此,如果有什么东西崩溃了,它不会使你的整个程序崩溃。这也意味着你可以安全地运行不受信任的代码。3.面向数据的设计。Ambient的核心数据模型是一个实体组件系统,每个WASM模块都可以操作。4.多语言:你将能够用任何能够编译成WebAssembly的语言来构建Ambient模块。目前,Rust是唯一支持的语言,但我们正在努力扩展到其他语言。5.单一可执行文件。Ambient是一个单一的可执行文件,可以在Windows、Mac和Linux上运行。它可以作为一个服务器或客户端。6.互操作性。Ambient允许你定义自定义组件和"概念"(组件的集合)。只要你的Ambient项目使用相同的组件和概念,它们就能共享数据和互操作,即使它们彼此不认识。7.资产管道和流。Ambient有一个资产管道,能够编译多种资产格式,包括.glb和.fbx。这些资产总是通过网络进行流式传输,因此你的客户在加入时将会收到他们需要的一切。8.强大的渲染器。环境渲染器是由GPU驱动的,删减和细节级别的切换都完全由GPU处理。默认情况下,它使用PBR。它还支持级联阴影贴图和实例化所有可以被实例化的东西。

封面图片

NASA小行星撞击任务将Dimorphos的轨道运行时间缩短了32分钟

NASA小行星撞击任务将Dimorphos的轨道运行时间缩短了32分钟上个月,NASA故意将一个航天器撞向一颗小行星以试图将其撞离轨道,现在结果出来了。科学家们分析了这次历史性撞击的望远镜数据并确认Dimorphos的路径因此被成功改变,据悉,其轨道的运行时间缩短了32分钟。PC版:https://www.cnbeta.com/articles/soft/1326181.htm手机版:https://m.cnbeta.com/view/1326181.htm

封面图片

世界最大物理实验室将缩短运行时间,因为缺电

世界最大物理实验室将缩短运行时间,因为缺电!坐落在法国和瑞士边境的欧洲核子研究组织(CERN)建造成本达到92亿美元(约合人民币665亿元),年耗电量堪比小型城市。官网称其一年可消耗1.3太瓦时(TWH)的电,相当于瑞士日内瓦年耗电量的三分之一,可以支持30万个英国家庭的生活。根据,这个世界上最大的物理实验室在收到主要供电公司减轻电网负担的请求后,决定缩短2022年和2023年的运行时间。今年,CERN的大对撞机和加速器将提前2周,在11月28日进入技术性关停,次年2月恢复;明年,运行时间将再削减20%,这意味着2023年CERN的粒子对撞实验在11月中旬就要结束了。大型科学设施如果彻底关停,重新启动会是一件很有难度的事情。真空抽吸装置关闭后可能会损坏脆弱精密的系统,冷却系统的循环停止后其中的积水可能会导致复试,而那些老旧的电子器件一旦关闭甚至可能再也打不开了。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人