AIGC技术从文本和图像的产生扩展到3D空间和更复杂的视频字段,但是现有模型通常面临两个核心挑战。一种是对物理世界的空间结构的不良理解,导致在3D场景中缺乏逻辑。另一个是由于视频创建中观点的改变引起的时空一致性问题。 Qunku Technology的合伙人兼总裁Huang Xiaohuang说:“数字世界的人工智能何时会转移到物理世界?我们相信太空情报是这里非常重要的桥梁。”在太空智能方面,核心是使AI真正了解物理世界的“语言”。这是迈向物理世界的第一步,因此AI可以学会用“空间语言”来解释世界。上周,杭州的“六个小小的小小的小”集团核心技术正式宣布了新一代的开源空间语言和空间生成模型的空间1.5模型。这是一家中国公司第一次启动大型模型系统,重点是对3D内部场景的认可并为全球开发人员生成它。 “了解” AI中空间的几何密码。这次推出的两个模型在本文开头提到了两个主要问题。空间LM1.5允许通过“空间语言”来结构化创建和3D场景的互动。空间基于3D高斯技术,以确保多个视觉图像的空间一致性。前者生成的场景丰富了物理正确的结构化信息,并通过交互式交互系统的互动互动系统quantiallm-chat来允许用户在交互式末端的产生中允许用户,溶剂机确实在机器人培训数据中出现问题。后者着重于“生成和演示”,并允许使用C的多个视觉图像产生基于文本说明,参考图像和3D空间设计的时空弱势。报告说,传统的多模型模型(GPT-4V,Tongyi Qianwen VLM等)将图像切割在视觉令牌中,以通过匹配文本来实现模式的理解,但本质是处理2D信息。换句话说,VLM可以解释“这是沙发”,但是您无法理解“沙发为2米,距离墙壁50厘米”等空间信息。它无法根据这些数据生成可编辑的3D场景。空间1.5中的进步是在“语言”是“语言”的“语言模型”中编码空间关系。这是基于Tongyi Qianwen 3的小型培训模型,并通过“空间语言”说明实现了极端的3D场景。例如,当用户“生成一个带有100平方米的两居室公寓时,主卧室包含一张旧床,搭配着装”时,该模型会产生一个结构化的脚本t包含壁线坐标,家具尺寸和物理参数,自动与资产库的3D模型一致以完成设计。周汉说:“最重要的维度是空间理解。”伟大的传统模型产生了自然语言的描述,而空间词则发出可直接用于表示和仿真的“空间代码”。此功能也成为培训型智能机器人的重要工具:集体中央技术的现场演示表明,机器人可以独立地做到这一点,具体取决于spatiallm1.5产生的efamily场景。计划一条“将卧室药物送到客厅”并避免障碍的道路。实现此类效果的能力与核心组平台所拥有的罕见数据有很大关系。如报道,3D数据的稀有性是太空智能发展的中央瓶颈。 Internet上有100亿张图像文本数据,但是他高质量的3D场景少于1000万,标签的成本非常高。 “首先,我在NVIDIA担任CUDA。出来后,使用GPU加速了物理世界的代表似乎很有趣。在第一天,Qunkeng Technology拥有超过4.41亿个3D模型,超过5亿个结构化的3D空间场景超过5亿多个。 Tiage,CNK技术的AI产品它们是基于2D图像序列训练的,并且不了解3D空间规则。他们已经学会了如何使先前图像的痕迹更具视觉范围,例如Siguiente图片,但不了解物理世界中所谓的行为基本逻辑。通过视力,确保物体的形式和位置在不同的框架中保持一致,并将其视为“直接从厨房跳到卧室”。 Como es Un Modelo deGeneracióndeCualquier Perspectiva,Espero que el Modelo de Video DepEnda en gran medida de la connectencia del eSpacio-tiempo y pueda saltar para para generar unafotografíade la perspectiva“calsgózhouZihan。 Primer Video de Ia del Mundo para laintemplaciónprofunda de las Capacidades 3D。工业设计师可以在几分钟内快速完成产品演示,并显示出详细的特征。Ontent不会中断。根据视频效果,香水经理评论说:“香奈儿(Chanel)和迪奥(Dior)之间存在很大的差距,但考虑到当前的时间和金钱,这现在是一个相对较大的进步。对于某些廉价品牌而言,这些视频已经具有足够的营销属性。”开源是中国的“生态进步”,不仅限于团体核心的两个智能开放源,不仅限于技术模型级别的进步。 “目前,太空智能仍处于发展的早期阶段。我不认为我们只能享受这个市场。huang xiaohuang说:“我们始终对数据和模型开放,我们希望能使世界上最聪明的大脑和世界上最具创新性的人来使这个“蛋糕”变得更大。朝着联合结构迈进。在2018年,GroupCore决定学习Li Feifei Images网络,该网络打开了最大的认知认知数据集的内部,因为他们认为可以使用大型数据来培训过去未获得的一些认知技能。今年3月,Group Core Spatiallm 1.0的开源再次成为开放源代码,并迅速在霍格面部趋势列表中的前三名中有资格。目前,其开源战略正在吸引外国人的注意。上个月,世界上第一个3D高斯数据集Interiorgs占据了夹具数据集中的第一名。 “您的功能是什么?过去,自主驾驶领域的争议是,如果是必要的实验室,“ Grupo”,“ Grupo”,“路线中心的群体的中心”。“ 3D表示”缺乏空间一致性。真正的全息图。第二个结构是互动。结构是互动。结构是互动的。一个复杂的内部场景。 “ Zhou Zihan总结了宇宙大型智能模型的特征。根据此,周汉认为,基于智能太空模型的大型系统,中国公司有望探索“瓶颈”曾经面临工业软件领域的新道路。”一些渐进。为了找到不参与传统软件的高级方法和完整的领域,我们可以创建以前没有数字的几何核心零件。 “ Zhou Zihan说,Spatiallm通过自然语言产生场景,随后的研究可以避免传统身体的复杂操作逻辑。” (本文首次发表给钛媒体应用的作者| Qin Conghui)
声明特别:先前的内容(包括照片和视频(如果有),如果有的话)已由网络自动媒体平台的用户收费和发布。该平台仅提供Informati在存储服务上。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。