中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

中国研究团队发布多视角数据集“FreeMan”解决3D人体姿势估计局限性在这方面，类似于Human3.6M和HuMMan的现有数据集广泛用于3D人体姿态估计，但它们是在受控的实验室环境中收集的，无法充分捕捉真实世界环境的复杂性。这些数据集在场景多样性、人体动作和可扩展性方面存在局限。研究人员提出了各种模型用于3D人体姿态估计，但由于现有数据集的局限性，它们的效果通常在应用于真实场景时受到阻碍。中国的一支研究团队推出了“FreeMan”，这个由来自香港中文大学（深圳）和腾讯等机构的团队共同合作开发的项目，被誉为革新性的多视角数据集，旨在为3D人体姿势估计领域带来新的突破。FreeMan是一个新颖的大规模多视角数据集，旨在解决现有数据集在真实场景中3D人体姿态估计方面的局限性。FreeMan是一项重要的贡献，旨在促进更准确和稳健模型的开发。FreeMan项目的特点之一是其数据集的规模和多样性。该数据集由8部智能手机在不同场景下的同步录制组成，包括10个不同场景、27个真实场地，总计包含了超过1100万帧的视频。每个场景都涵盖了不同的照明条件，使得这个数据集成为一个独一无二的资源。FreeMan数据集的开源是为了促进大规模预训练数据集的发展，同时也为户外3D人体姿势估计提供了全新的基准。这一数据集不仅包括视频，还提供了丰富的注解信息，包括2D和3D人体关键点、SMPL参数、边界框等，为研究人员提供了丰富的资源以推动相关领域的研究。值得注意的是，FreeMan引入了相机参数和人体尺度的变化，使其更具代表性。研究团队开发了自动化的标注流程，以从收集的数据中高效生成精确的3D标注。这一流程包括人体检测、2D关键点检测、3D姿态估计和网格标注。由此产生的数据集对于多种任务都非常有价值，包括单目3D估计、2D到3D转换、多视角3D估计和人体主体的神经渲染。研究人员提供了对FreeMan进行各种任务的全面评估基线。他们将在FreeMan上训练的模型与在Human3.6M和HuMMan上训练的模型的性能进行了比较。值得注意的是，在3DPW数据集上测试时，训练在FreeMan上的模型表现出显著更好的性能，突显了FreeMan在真实场景中的卓越泛化能力。在多视角3D人体姿态估计实验中，与在Human3.6M上训练的模型相比，在跨领域数据集上测试时，训练在FreeMan上的模型表现出更好的泛化能力。结果一致显示了FreeMan多样性和规模的优势。在2D到3D姿态转换实验中，FreeMan的挑战显而易见，因为在这个数据集上训练的模型面临更大的难度。然而，当模型在整个FreeMan训练集上进行训练时，其性能得到改善，显示出该数据集提高模型性能的潜力。FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互领域的进步，弥合了受控实验室条件与真实场景之间的差距。...PC版：https://www.cnbeta.com.tw/articles/soft/1386255.htm手机版：https://m.cnbeta.com.tw/view/1386255.htm

在Telegram中查看

相关推荐

Sora的局限性：

对sora比较深入的分析从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性，也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结：Sora的局限性：Sora虽然能够模拟物理现象，但其物理理解仍然脆弱，无法完全替代专业的物理引擎。在物体交互和物理规则的理解上存在不足，可能导致超现实的结果。Sora的生成内容依赖于大量数据的压缩和提炼，而非完全的物理模拟。Sora的创新与潜力：通过将视频内容压缩到隐空间，Sora有效地解决了处理高分辨率视频所需的计算资源问题。其技术可能影响实时影像资料的处理和分析，如直播和监控视频数据。Sora的应用可能为AI模型训练提供新路径，特别是在多模态数据和复杂现实世界情境的理解方面。对未来的展望：Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。尽管Sora不会取代游戏引擎开发者或影视特效师，但它可以作为创意预览阶段的工具，帮助普通人进行民主化创作。Sora的多模态能力可能通过3D引擎模型进一步发展，为虚拟世界的构建提供自动化支持。这个见解强调AI在创意和模拟物理现象方面的潜力，同时也提醒我们AI技术仍有待发展，特别是在理解和模拟复杂物理世界方面。

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性这项研究从西奈山医疗系统12个月的常规护理中提取了27000多个独特的诊断和手术代码，同时排除了可识别的患者数据。通过对每个代码的描述，研究人员促使OpenAI、Google和Meta的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较，并分析了错误的模式。研究人员报告说，所研究的所有大型语言模型，包括GPT-4、GPT-3.5、Gemini-pro和Llama-2-70b在再现原始医疗代码方面都显示出有限的准确性（低于50%），这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4的性能最好，ICD-9-CM（45.9%）、ICD-10-CM（33.9%）和CPT代码（49.8%）的精确匹配率最高。GPT-4还生成了最高比例的错误代码，但仍然表达了正确的含义。例如，当给出ICD-9-CM中"结节性前列腺，无尿路梗阻"的描述时，GPT-4生成了"结节性前列腺"的代码，展示了其对医学术语相对细微的理解。然而，即使考虑到这些技术上正确的代码，仍然存在大量令人无法接受的错误。其次是GPT-3.5模型，该模型的模糊倾向最大。与准确的代码相比，它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下，当提供ICD-9-CM描述"未指定的麻醉不良反应"时，GPT-3.5生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学（D3M）和医学（消化内科）助理教授、医学博士、理学硕士阿里-索罗什（AliSoroush）说："我们的研究结果突出表明，在医疗编码等敏感业务领域部署人工智能技术之前，亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力，但必须谨慎对待并不断开发，以确保其在医疗保健领域的可靠性和有效性。"研究人员说，这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码，用于报销和研究目的。"以前的研究表明，较新的大型语言模型在处理数字任务时非常吃力。然而，这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究，"共同第一作者、D3M的生成式人工智能研究项目主任、医学博士EyalKlang说。"因此，我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出，将LLM与专家知识相结合可以实现医疗代码提取的自动化，从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战，强调了在广泛采用之前进行仔细考虑和进一步完善的必要性，"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼D3M系统主管艾琳-费什伯格博士（IreneandDr.ArthurM.Fishberg）医学博士、医学博士吉里什-纳德卡尔尼（GirishNadkarni）说。研究人员提醒说，这项研究的人工任务可能并不能完全代表真实世界的情况，在这种情况下，LLM的表现可能会更糟。下一步，研究团队计划开发量身定制的LLM工具，用于准确提取医疗数据和分配账单代码，以提高医疗运营的质量和效率。编译来源：ScitechDaily...PC版：https://www.cnbeta.com.tw/articles/soft/1428862.htm手机版：https://m.cnbeta.com.tw/view/1428862.htm

新研究解决枝晶难题克服锂电池的局限性

新研究解决枝晶难题克服锂电池的局限性锂金属电池（LMB）的能量密度比目前的锂离子电池（LIB）高近10倍，因此被认为是未来潜在的存储系统之一。然而，锂金属电池存在一定的安全隐患，不能用于快速充电应用。不受控制的枝晶形成会导致过度加热和电池短路，这是其发展过程中面临的关键挑战之一。研究人员以前曾试图解决LMB的安全问题，但采用的方法既费力又费钱/费时。海德拉巴塔塔基础研究所（TIFRH）的T.N.Narayanan实验室报告了一种简单、可扩展、成本效益高的方法，用于组装更安全、更耐用的锂金属电池。PreetiYadav（作者）手持由改进型隔膜式锂金属电池供电的发光红色LED（3V）图片来源：PallaviThakur博士和T.N.Narayanan教授多孔隔膜位于电池电极之间，将它们隔开，对防止短路至关重要。电池使用一段时间后，其中一个电极上开始形成树状结构或称为树枝状突起的须状突起。如果这些树突不受控制地生长，就会在某种意义上成为两个电极之间的物理桥梁，造成短路。该研究的主要作者、研究生PreetiYadav和PallaviThakur使用一种常见的石墨衍生物粉末对典型电池中使用的隔膜进行了改性。这种改性抑制了枝晶的形成，在很大程度上提高了电池的寿命。研究人员认为，这种隔膜改性方法具有巨大的潜力，可以推广到工业应用中。然而，在10mAcm-2的极高电流密度下，电池似乎在缓慢退化。这可能是因为锂电镀到了碳（沉积石墨衍生物层的一种成分）上。研究人员希望进一步研究这些难题，从根本上了解界面在提高电池性能方面的作用。编译自:ScitechDaily...PC版：https://www.cnbeta.com.tw/articles/soft/1425542.htm手机版：https://m.cnbeta.com.tw/view/1425542.htm

DL3DV-10K Dataset：针对基于深度学习的3D视觉的大规模场景数据集

：针对基于深度学习的3D视觉的大规模场景数据集基于深度学习的3D视觉领域已经取得了显著的进步，从神经辐射场（NeRF）驱动的3D表示学习到应用于全新视角合成（NVS）。然而，当前的针对基于深度学习的3D视觉的场景级别数据集，不管是只限于虚构环境或者狭窄的现实世界场景的选择，都非常框定。这种局限性限制了我们对现有方法进行全面的基准测试，也限制了在基于深度学习的3D分析中可能探索的领域。为了填补这个空白，我们提出了DL3DV-10K，一个大规模场景数据集，包含51.2百万帧，从10,510个视频中捕获，涵盖了65种热点（POI）地点，包括有边界和无边界的场景，呈现出不同层次的反射、透明度和光照。我们对DL3DV-10K进行了全新视角合成（NVS）方法的全面基准测试，揭示出NVS未来研究的宝贵观察。此外，我们利用DL3DV-10K进行的通用化NeRF初步学习研究取得了令人鼓舞的结果，突显了大规模场景级别数据集对于建立学习3D表示的基础模型的重要性。我们的DL3DV-10K数据集，基准测试结果和模型将可在网页链接上公开获取。

谷歌新论文称“AI即将超越人类”还不现实其有自身局限性

谷歌新论文称“AI即将超越人类”还不现实其有自身局限性在11月1日提交给ArXiv的一篇新论文中，三名作者SteveYadlowsky、LyricDoshi和NileshTripuraneni写道：“当任务或功能需要超出预训练数据的范围时，transformer出现了各种故障模式，发现即使是简单的任务外延也会降低它们的归纳能力。”根据这篇论文的说法，深度神经网络transformer所擅长的是执行与训练数据相关的任务，并不太擅长处理超出这个范围的任务。对于那些希望实现通用人工智能（AGI）的人来说，这个问题不容忽视。通用人工智能是技术人员用来描述可以完成任何人类所做事情的假想人工智能。就目前而言，人工智能非常擅长执行特定任务，但不像人类那样能跨领域转移技能。华盛顿大学计算机科学与工程荣誉教授佩德罗·多明戈斯（PedroDomingos）表示，新研究意味着“在这一点上，我们不应该对即将到来的人工智能过于疯狂。”人们将AGI吹捧为人工智能领域的终极目标，从理论上讲，其代表着人类创造出与自己一样聪明或比自己更聪明的东西。许多投资者和技术人员都在为此投入大量时间和精力。本周一，OpenAI首席执行官萨姆·奥尔特曼（SamAltman）就与微软首席执行官萨蒂亚·纳德拉（SatyaNadella）共同登台，重申了他关于“合作打造AGI”的愿景。实现这一目标意味着让人工智能完成许多人类大脑可以完成的归纳性任务，包括适应不熟悉的场景、创建类比、处理新信息以及抽象思维等等。但是，正如研究人员指出的那样，如果这项技术连“简单的任务外延”都难以实现，那么显然我们离目标还很远。普林斯顿大学计算机科学教授阿尔温德·纳拉亚南(ArvindNarayanan)在社交媒体平台X上写道：“这篇论文甚至与大语言模型无关，但似乎是打破集体信念泡沫的最后一根稻草，让许多人接受了大语言模型的局限性。”“该是清醒的时候了”。英伟达高级人工智能科学家JinFan质疑为什么这篇论文的发现会让人们感到惊讶，因为“transformer本来就不是灵丹妙药”。多明戈斯表示，这项研究凸显出，对于一项被吹捧为通向AGI之路的技术潜力，“很多人都感到非常困惑”。他补充说：“这是篇刚刚发表的论文，有趣的是谁会感到惊讶，谁不会感到惊讶。”虽然多明戈斯承认transformer是一项先进的技术，但他相信很多人认为这种深度神经网络比实际要强大得多。他说：“问题是神经网络非常不透明，而且这些大语言模型都是在难以想象的大量数据上训练的，这让很多人对它们能做什么和不能做什么感到非常困惑。”“他们开始总认为自己可以创造奇迹。”更高级的人工智能可能会在归纳概括方面做得更好。谷歌研究人员在研究中使用的是GPT-2比例模型，而不是更主流的GPT-4比例模型。人工智能初创企业LaminiAI首席执行官莎朗·周（SharonZhou）认为，她自己并不觉得transformer很难归纳概括是个问题。“这就是为什么我创办了一家训练模型的公司，而不仅仅是向它们提问，这样它们就能学到新东西，”她说。“它们仍然非常有用，仍然可以引导和调整。”...PC版：https://www.cnbeta.com.tw/articles/soft/1395261.htm手机版：https://m.cnbeta.com.tw/view/1395261.htm

Stability AI 太惨了老是发消息被忽略，昨晚他们还跟Tripo AI 联合推出了 TripoSR 3D 生成模型，可以

StabilityAI太惨了老是发消息被忽略，昨晚他们还跟TripoAI联合推出了TripoSR3D生成模型，可以在不到1秒的时间里生成高质量的3D模型。TripoSR的推理只需要极低的算力，甚至都不需要GPU，极大的降低了生产成本。权重模型允许商业化使用。性能：TripoSR可以在其他模型所需时间的一小部分时间内创建详细的3D模型。在NvidiaA100上进行测试时，它可以在大约0.5秒内生成初步质量的3D输出（纹理网格），表现优于其他开放的图像到3D模型，如OpenLRM。技术细节：训练数据准备包括多种数据渲染技术，更贴近真实世界中图像的分布，显著提高了模型的泛化能力。精心策划了一个CC-BY，即Objaverse数据集的高质量子集，用于训练数据。在模型方面，还对基础LRM模型进行了多项技术改进，包括通道数优化、蒙版监督和更高效的裁剪渲染策略。详细信息：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人