这个名为 Gradio 的开源项目，可在短短几分钟内，为机器学习模型生成一个简洁、优雅的 UI 界面，让你能在浏览器中进行演

这个名为的开源项目，可在短短几分钟内，为机器学习模型生成一个简洁、优雅的UI界面，让你能在浏览器中进行项目演示。通过该界面，你可以完成拖拽上传图像、粘贴文本、声音录制等操作，并查看模型输出内容Gradio适用于：为客户/合作者/用户/学生演示您的机器学习模型使用自动共享链接快速部署您的模型并获得有关模型性能的反馈在开发过程中使用内置的操作和解释工具以交互方式调试模型

在Telegram中查看

相关推荐

苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。

苹果发布了专门用于理解应用UI界面的MLLLMFerret-UI。专门针对移动UI屏幕进行了优化，具备了指向、定位和推理等多种能力。看来iOS18有可能会有类似通过Siri自动操作应用界面的能力？---------详细介绍---------Ferret-UI模型的介绍与特点：Ferret-UI是一个新的MLLM，专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力，能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”（anyresolution）技术，该技术通过放大细节来解决UI屏幕中小型对象的识别问题，从而提高模型对UI元素的理解精度。移动用户界面（UI）屏幕的理解：UI屏幕的理解是一个复杂的问题，因为它不仅要求模型能够理解屏幕上的内容，还要能够识别和操作具体的UI元素。与传统的自然图像相比，UI屏幕通常具有更多的长宽比和更小的元素，这些元素对于模型来说是一个挑战。此外，UI屏幕的理解还涉及到对屏幕元素间关系的识别，以及对用户可能采取的行动的预测。“任何分辨率”（anyresolution）技术的应用：为了克服UI屏幕中的小对象识别问题，Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像，并对每个子图像进行单独编码，从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。训练样本的收集与任务制定：Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式，以便于模型进行精确的引用和定位。此外，为了提高模型的推理能力，还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。模型架构与数据集的建立：Ferret-UI的架构基于Ferret模型，后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点，Ferret-UI进行了架构调整，包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外，为了全面评估模型的能力，还建立了一个包含所有研究任务的综合测试基准。高级任务中的对话能力：Ferret-UI在高级任务中的对话能力表现突出，尤其是在详细描述和交互对话任务中。

Google推出WebGPU技术用于在浏览器中进行下一代游戏

Google推出WebGPU技术用于在浏览器中进行下一代游戏根据一篇博客文章，WebGPU可以让开发者以更少的代码实现与现在相同的图形水平，并提供"机器学习模型推断方面三倍以上的改进"。最后一项是一个真正的亮点--机器学习性能的提高，这在2021年还算是新鲜事物，当时该功能是在实验的基础上添加到Chrome中的，但现在我们处于生成性AI和大型语言模型的时代，它可能是更大的福音。虽然像Google的Bard和微软的Bing这样的服务并没有真正利用你的本地硬件，但对于那些机器学习应用来说有很大的空间。当然，它也可以让开发者为你的浏览器编写更好看的游戏。Babylon.js有一个相当令人印象深刻的演示。WebGPU演示的截图，显示一个漂浮在海中的3D浮标。对于在Mac上的网络浏览器中运行的东西来说，这似乎更有前景。Google表示，本月的发布是"作为未来更新和改进的基石"，承诺未来将有"更先进的图形功能"和"对着色器核心更深入的访问"，以及对你如何实际开发在WebGPU上运行的内容的改进。该API已经酝酿了相当长的时间。它是在2017年设计的，从那时起就一直在开发。它也不是一个只适用于Chrome的标准；在未来，它也应该可以在Firefox和Safari中使用。Google表示，它正在努力扩大其实施范围，以支持更多的操作系统，如Linux和Android。在其他Chrome浏览器的新闻中，Google在周三宣布，它将努力使未来的浏览器版本更快地推出。虽然稳定版不会更早发布（事实上，他们的发布时间表已经推后了一周），但Google计划在晚些时候"冻结"它们，缩短开发人员停止向构建中添加新内容和普通公众获得新内容之间的时间。这应该有助于平滑开发过程。...PC版：https://www.cnbeta.com.tw/articles/soft/1353453.htm手机版：https://m.cnbeta.com.tw/view/1353453.htm

FastServe：专注于GenAI和LLM(大型语言模型)的快速机器学习模型服务项目，以简单性为首要目标。其主要特色包括快速部

：专注于GenAI和LLM(大型语言模型)的快速机器学习模型服务项目，以简单性为首要目标。其主要特色包括快速部署、支持多种模型类型和自定义模型服务能力。通过简单的安装和使用示例，用户可以快速部署各种模型，包括Mistral-7B、SDXLTurbo、人脸检测和图像分类等。FastServe提供了用户界面，方便用户进行交互操作。部署方面，可以轻松集成到LightningAIStudio。

最小化的机器学习项目模板

最小化的机器学习项目模板此存储库实现了一个最小的机器学习模板，该模板功能齐全，适用于机器学习项目可能需要的大多数内容。使此存储库与众不同的最重要部分是：它是无国籍的。使用此模板运行的任何给定实验都会自动并定期地将模型权重和配置分别存储到HuggingFaceHub和wandb。因此，如果您的机器死机或作业退出，而你在另一台机器上恢复，代码将自动找到并下载以前的历史记录，并从中断的地方继续。这使得此存储库在使用竞价型实例或使用slurm和kubernetes等调度程序时非常有用。它通过HuggingFaceAccelerate为所有最新和最好的GPU和TPU优化和缩放算法提供支持。它通过Hydra-Zen提供成熟的配置支持，并通过此存储库中实现的装饰器自动生成配置。它具有基于回调的最小样板，允许用户轻松地在系统中的预定义位置注入任何功能，而无需对代码进行页面处理。它使用HuggingFace模型和数据集来简化模型和数据集的构建/加载，但也不会强迫您使用它们，允许非常轻松地注入您关心的任何模型和数据集，假设您使用在PyTorch和类下实现的模型。nn.ModuleDataset它提供了即插即用功能，允许使用BWatchCompute和一些现成的脚本和yaml模板在Kubernetes集群上轻松搜索超参数。#模板#机器学习

研究人员利用激光可在几分钟内发现和识别细菌无需培养

研究人员利用激光可在几分钟内发现和识别细菌无需培养问题是，样品中的其他微观项目--如血细胞或病毒--也会反射光线，这意味着细菌的光谱"指纹"在背景噪音中消失了，所以它无法被辨别出来。在JenniferDionne副教授的领导下，斯坦福大学的一个科学家团队已经设计了一个解决这个问题的方案。他们的技术采用了一种改良的喷墨打印机，利用声学脉冲打印出有关液体的小点。打印在幻灯片上，每个点的体积只有两万亿分之一升。由于这些小点如此之小，因此任何存在的细菌都有机会被看到。此外，被添加到微小样品中的金纳米棒会附着在细菌上，作为"天线"吸引激光的照射。因此，细菌的反射光谱指纹比其他方式强1500倍。这使得基于机器学习的软件非常容易发现该指纹，并将其与特定类型的细菌相匹配。尽管这项技术主要是以受感染的小鼠血液作为液体进行开发的，但Dionne认为它在分析其他液体时应该同样有效，它甚至可以被调整为针对其他类型的细胞，如病毒。该研究的高级合著者AmrSaleh说："这是一个创新的解决方案，有可能产生拯救生命的影响，我们现在对商业化机会感到兴奋，它可以帮助重新定义细菌检测和单细胞表征的标准"。他曾是Dionne实验室的博士后学者，目前是开罗大学的教授。有关这项研究的论文最近发表在《纳米通讯》杂志上。...PC版：https://www.cnbeta.com.tw/articles/soft/1347639.htm手机版：https://m.cnbeta.com.tw/view/1347639.htm

Gemini Ultra即将上线，Bard将更名为 Gemini

GeminiUltra即将上线，Bard将更名为Gemini一份泄露的文档显示，Google的GeminiUltra模型将在2月7号上线，同时Google聊天机器人Bard将更名为Gemini。Gemini将开启付费计划：GeminiAdvanced，这是一个类似ChatGPTPlus的付费模式，可以访问GeminiUltra1.0，GeminiPro可能将继续免费。核心要点：界面优化：Gemini的用户界面经过优化，以减少视觉干扰，提高可读性，并简化导航。GeminiAdvanced付费计划：提供访问Google最强大的AI模型Ultra1.0的能力，可以执行复杂任务如编程、逻辑推理和创造性协作等。GeminiAdvanced将引入新功能和独家特性，如增强的多模态能力和编程特性，以及上传和深入分析文件的能力。将推出GeminiAPP，用户可以在手机上下载使用Gemini来学习、写信、规划活动等。该应用与Google的其他应用（如Gmail、Maps和YouTube）集成，支持文本、语音或图片交互。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人