
这里有一项针对婴儿的测试:给他们看桌上的一杯水。把水藏在一块木板后面。然后把木板移向水杯。如果木板一直经过水杯雅安隔热条PA66生产设备,就好像水杯不存在一样,他们会感到惊讶吗?许多六个月大的婴儿都会感到惊讶,到一岁时,几乎所有孩子都会通过观察,对物体的持久产生直觉。现在,一些人工智能模型也具备这种能力。
研究人员开发了一种人工智能系统,它可以通过了解世界,并在呈现与其所收集的知识相悖的信息时表现出“惊讶”的感觉。
该模型由 Meta 创建,名为“联嵌入预测架构”(V-JEPA),它不对中包含的世界的物理特做出任何假设。尽管如此,它仍然可以理解世界的运作方式。
手机:18631662662(同微信号)Micha Heilbron表示:“他们的说法从理论上来说非常理,而且结果非常有趣。”(打开新标签页)是阿姆斯特丹大学的认知科学家,研究大脑和人工系统如何理解世界。
随后,小鹏X9级增程版(以下称为小鹏X9增程版)正式开启预订,标志着小鹏汽车正式杀入增程车型市场。
有回陪朋友给孩子报兴趣班,挺有感触,今天和大家说说,就当一乐呵。
价格方面,银河M9售价18.38-24.88万元,上市限时价为17.38-23.88万元,对于一款中大型SUV来说,17.38万元的入门价格并不贵,吉利银河这个系列就是靠低价策略成功出圈的,大有取代比亚迪之势。
在10万级家轿市场,长安逸动凭借其越级空间、低油耗、高价比等优势,成功占据了市场的一席之地,成为了家用紧凑型车阵营的佼佼者。数据显示,今年8月,逸动销量为13637辆,这样的销量表明其在市场中竞争力十足。目前在售车型有2026款、2025款和2024款,高可享3.3万元的降价优惠,低起售价仅3.99万元,这一价格确实令人意外。
汽车的结构安全
先从汽车的结构安全来说,就我们说的用料这些安全方面,就常说的用钢。十年前的车跟现在的车,在高强度钢的使用比例上,以及在车身结构上,其实差别还是蛮大的。
更高层次的抽象正如自动驾驶汽车的工程师们所知,让人工智能系统可靠地理解它所看到的内容并非易事。大多数旨在“理解”的系统,要么对内容进行分类(例如,“一个人在打网球”),要么识别物体的轮廓(例如,前方有一辆车),它们在所谓的“像素空间”中工作。这些模型本质上将中的每个像素都视为同等重要。
但这些像素空间模型存在局限。想象一下,试图理解一条郊区街道。如果场景中有汽车、交通信号灯和树木,模型可能会过于关注不相关的细节,例如树叶的运动。它可能会错过交通信号灯的颜或附近汽车的位置。“当你处理图像或时雅安隔热条PA66生产设备,你不会想在[像素]空间中工作,因为有太多你不想建模的细节,”兰德尔·巴莱斯特里罗说。(打开新标签页)布朗大学计算机科学家。
纽约大学计算机科学家、Meta 人工智能研究主任 Yann LeCun 于 2022 年创建了 JEPA,它是 V-JEPA 的前身,用于处理静态图像。
巴黎萨克雷综理工大学
2024 年发布的 V-JEPA 架构旨在避免这些问题。虽然构成 V-JEPA 的各种人工神经网络的具体细节很复杂,但其基本概念却很简单。
普通的像素空间系统会经历一个训练过程,包括遮盖帧中的某些像素,并训练神经网络来预测这些被遮盖像素的值。V-JEPA 也会遮盖部分帧。但它不会在单个像素的层面上预测遮盖区域背后的内容。相反,它使用更高层次的抽象,或“潜在”表示,来对内容进行建模。
潜在表征仅捕获数据的基本细节。例如,隔热条PA66生产设备给定各种圆柱体的线条图,一个称为编码器的神经网络可以学习将每幅图像转换为代表每个圆柱体基本特征的数字,例如其高度、宽度、方向和位置。通过这种方式,数百或数千个像素中包含的信息被转换成几个数字——即潜在表征。然后,一个称为解码器的立神经网络学习将圆柱体的基本细节转换为圆柱体的图像。
“世界模型”——人工智能域的一个古老概念——卷土重来雅安隔热条PA66生产设备
人工智能“世界模型”——人工智能域的一个古老概念——卷土重来
V-JEPA 注于创建和重现潜在表征。从高层次来看,该架构分为三个部分:编码器 1、编码器 2 和预测器。先,训练算法获取一组帧,在所有帧中屏蔽相同的像素集,然后将这些帧输入编码器 1。有时,的后几帧会被完全屏蔽。编码器 1 将这些屏蔽的帧转换为潜在表征。该算法还将未屏蔽的帧完整地输入编码器 2,编码器 2 将它们转换为另一组潜在表征。
现在,预测器开始发挥作用。它使用编码器 1 生成的潜在表示来预测编码器 2 的输出。本质上,它采用由掩码帧生成的潜在表示,并预测由未掩码帧生成的潜在表示。通过重建相关的潜在表示,而不是早期系统中缺失的像素,模型学会了识别道路上的车辆,而不是关注树叶。
昆汀·加里多 (Quentin Garrido)表示:“这使得模型能够丢弃不要的信息,并注于中更重要的方面。”(打开新标签页),Meta 的研究科学家。“丢弃不要的信息非常重要,这也是 V-JEPA 旨在高完成的事情。”
预训练阶段完成后,下一步是对 V-JEPA 进行定制,使其能够完成特定任务,例如对图像进行分类或识别中描述的动作。此适应阶段需要一些人工标记的数据。例如,须添加与其所含动作相关的标记信息。相比于针对特定下游任务对整个系统进行端到端训练,终任务所需的标记数据要少得多。此外,相同的编码器和预测器网络可以适应不同的任务。
直觉模仿者今年 2 月,V-JEPA 团队报告称(打开新标签页)他们的系统如何理解现实世界的直观物理属——例如物体的永久、形状和颜的恒定,以及重力和碰撞的影响。在一项名为“IntPhys”的测试中(打开新标签页)需要人工智能模型来识别中发生的动作是否符物理逻辑,V-JEPA 的准确率接近 98%。而一个著名的像素空间预测模型的准确率也只比随机概率高一点点。
自主机器人需要类似物理直觉的东西来规划其动作并与物理环境互动。
V-JEPA 团队还明确量化了模型在预测与观测结果不符时表现出的“惊讶”。他们采用一个在自然上预训练的 V-JEPA 模型,输入新的,然后用数学方法计算 V-JEPA 预期在未来帧中看到的内容与实际发生情况之间的差异。团队发现,当未来帧包含物理上不可能发生的事件时,预测误差会急剧上升。例如,如果一个球滚到某个遮挡物体后面并暂时从视野中消失,那么当球在未来帧中没有从该物体后面重新出现时,模型就会产生误差。这种反应类似于婴儿的直觉反应。可以说,V-JEPA 感到很惊讶。
海尔布隆对 V-JEPA 的能力印象深刻。“我们从发育文献中得知,婴儿不需要太多接触就能学习这类直觉物理学,”他说。“令人信服的是,他们证明了这些直觉物理学是可以学习的,而且你不需要具备所有这些先天的先验知识。”
卡尔·弗里斯顿(打开新标签页)伦敦大学学院的计算神经科学家认为,V-JEPA 在模仿“我们大脑学习和建模世界的方式”方面走在了正确的道路上。然而,它仍然缺少一些基本要素。“目前的方案缺少的是对不确定的适当编码,”他说道。例如,如果过去帧中的信息不足以准确预测未来帧,则预测是不确定的,而 V-JEPA 并没有量化这种不确定。
6 月,Meta 的 V-JEPA 团队发布了其下一代 12 亿参数模型V-JEPA 2(打开新标签页)该模型已基于 2200 万个进行预训练。他们还将该模型应用于机器人技术:他们展示了如何仅使用约 60 小时的机器人数据(包括机器人及其动作信息)进一步微调新的预测网络,然后使用微调后的模型来规划机器人的下一步动作。Garrido 表示:“这样的模型可以用来解决简单的机器人操作任务,并为未来在该方向的研究铺平了道路。”
为了推动 V-JEPA 2,该团队设计了一个更难的直观物理理解基准,称为IntPhys 2(打开新标签页)在这些更严格的测试中,V-JEPA 2 和其他模型的表现仅略好于随机概率。Garrido 表示雅安隔热条PA66生产设备,原因之一是 V-JEPA 2 只能处理大约几秒钟的输入,并预测未来几秒钟的情况。更长的时间会被遗忘。你可以再次将其与婴儿进行比较,但 Garrido 心中想的是一种不同的生物。“从某种意义上说,该模型的记忆让人想起了金鱼,”他说。
18631662662