◆使用真实世界的网页内容来训练开放源代码的多模态大语言模型。我们的初步实验表明,直接在的网页上进行训练存在挑战,因为这些网页

◆使用真实世界的网页内容来训练开放源代码的多模态大语言模型。我们的初步实验表明,直接在真实的网页上进行训练存在挑战,因为这些网页往往内容繁杂、数据杂乱。未来的研究可能会探索数据清洗和优化的方法,以实现更稳定有效的训练过程。◆超越传统的截图输入方式,例如,尝试使用前端设计师的Figma框架或手绘草图作为测试输入。这种方法的扩展还需要我们仔细地重新设计评估体系。◆将研究范围从静态网页扩展到动态网页。这意味着评估过程需要考虑网页的交互功能,而不仅仅是视觉效果的相似性。项目地址:

相关推荐

封面图片

谷歌的Project Gameface 允许你用脸部表情控制游戏“鼠标”,并于周二向安卓开发者开放源代码

开发者现在可以将这一辅助功能集成到他们的应用中,允许用户通过面部手势或移动头部来控制光标。例如,他们可以张开嘴巴移动光标或者抬高眉毛来点击和拖动。在去年的GoogleI/O桌面会议上宣布的ProjectGameface,通过使用设备的摄像头和MediaPipe的面部地标检测API的面部表情数据库来操控光标。谷歌在其公告中解释说:“通过设备的摄像头,它无缝追踪面部表情和头部动作,将它们转换成直观且个性化的控制。开发者现在可以构建应用程序,让用户通过自定义面部表情、手势大小、光标速度等来配置他们的体验。”虽然Gameface最初是为游戏玩家设计的,但谷歌表示,它还与Incluzza合作——这是一家专注于无障碍的印度社会企业,以探索如何将其扩展到工作、学校和社交场合等其他环境。标签:#Google#Gameface频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

torchtune:用 PyTorch 轻松微调大语言模型

:用PyTorch轻松微调大语言模型PyTorch发布了torchtune库的alpha版本,用于轻松微调大型语言模型。该库遵循PyTorch的设计原则,提供了组件化和模块化的构建块,以及易于扩展的微调示例,以在各种消费级和专业GPU上微调流行的大型语言模型。torchtune支持从头到尾的完整微调工作流程,包括数据集和模型检查点的下载和准备、可组合的构建块进行训练自定义、训练过程的日志和指标记录、模型量化、在知名基准上的模型评估以及本地推理。torchtune致力于易扩展性、让微调大众化、与开源生态系统的互操作性。未来几周将持续为库增加更多模型、特征和微调技术。torchtune与HuggingFaceHub、PyTorchFSDP、Weights&Biases、EleutherAI的评估工具、ExecuTorch和torchao等开源生态系统的组件深度集成,为用户提供灵活性和控制力。

封面图片

微软这个研究相当强啊,可以不经过训练直接融合多个 Lora 不损失效果,而且他们提出的通过 GPT-4V 评价图像质量的方法也很

微软这个研究相当强啊,可以不经过训练直接融合多个Lora不损失效果,而且他们提出的通过GPT-4V评价图像质量的方法也很有参考性。项目介绍:本项目旨在通过新的文本至图像生成方法,着重采用多重低秩适应(Low-RankAdaptations,LoRAs)技术,创造高度个性化且细节丰富的图像。我们介绍了LoRA开关(LoRASwitch)与LoRA组合(LoRAComposite),这两种方式的目标是在精确度和图像质量上超越传统技术,特别是在处理复杂图像组合时。项目特色:免训练方法LoRA开关和LoRA组合支持动态精确地整合多个LoRA,无需进行微调。我们的方法不同于那些融合LoRA权重的做法,而是专注于解码过程,并保持所有LoRA权重不变。ComposLoRA测试平台这是一个全新的综合性测试平台,包含480套组合和22个在六大类别中预训练好的LoRA。ComposLoRA专为评估基于LoRA的可组合图像生成任务而设计,支持定量评估。基于GPT-4V的评估工具我们提出采用GPT-4V作为评估工具,用以判定组合效果及图像质量。该评估工具已证实在与人类评价的相关性上有更好的表现。卓越性能无论是自动化还是人类评价,我们的方法都显著优于现有的LoRA合并技术。在生成复杂图像组合的场景中,我们的方法表现出更加突出的优势。详尽分析我们对每种方法在不同场景下的优势进行了深入的分析。同时,我们还探讨了采用GPT-4V作为评估工具可能存在的偏差。项目地址:

封面图片

TACO(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的

(TopicsinAlgorithmicCOdeGenerationdataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。规模更大:TACO包括训练集(25,443个问题)和测试集(1,000个问题),使其成为当前可用的最大的代码生成数据集。更高质量:TACO数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。细粒度标签:TACO数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。

封面图片

蓝搜WEB网页版V1.0是一款全开源的搜索引擎程序,支持添加违禁词,并提供了代码注释,方便用户阅读和修改。

蓝搜WEB网页版V1.0是一款全开源的搜索引擎程序,支持添加搜索违禁词,并提供了代码注释,方便用户阅读和修改。该程序支持自适应PC端和移动端,并采用了简洁的界面设计,没有后台管理的繁琐操作,使用起来十分方便,并且支持暗黑模式。蓝奏云网盘搜索WEB网页版的开源代码可以让用户进行二次开发和扩展,实现更加个性化的搜索服务。由于采用了响应式设计,该程序能够适应不同设备的屏幕大小和分辨率,使得用户在PC端和移动端都有良好的使用体验。https://gocodehub.com/3590.html

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人