【观点分享】【滴水研究】智能时代纪事:If AA(Automotive)I is what you need......

时间:2023-11-15 16:03

 

 

 
 

 

图片来源:网络

 

一、前言

 

随着ChatGPT和汽车智能驾驶的火爆,Transformer也火热出圈。谈及人工智能,必谈Transformer。Transformer早在2017年被提出,先是在AI学术圈和产业圈引起关注和热议,经过了这些年的广泛的实践和各路大神的贡献,Transformer可以说也成为AI发展历史上非常重要的一个模型了。

 

关于Transformer解读和延伸的文章,那真是铺天盖地层出不穷,而CV领域也期待能够像NLP一样出现大一统的模型架构,大量的学术圈和产业圈大佬对Transformer在CV中的应用不断地探索和突破,特别是在特斯拉将Transformer应用上车后,智能汽车产业界热情高涨。作为专注在汽车产业投资的机构和组织,我觉得多少也有必要来蹭蹭热度,进行研究。汽车智能是否进入到一个更大突破更高速发展的阶段,从而使汽车真正成为一个“智能终端”,真正的“智能机器人”,这个也是我们想要探讨和关注的。

如同我之前的很多文章一样,不可避免地会引用很多公开的资料或者书籍,因此也先对这些被我引用资料的作者表示感谢,具体的参考资料在最后会一一列出,而如果有些我引用了但是没有提及,也请见谅,难免有些遗漏。特别地我想感谢和推荐下李宏毅老师的公开课,生动(尤其是对宝可曼的数据训练,你是认真的么?)而又清晰地讲解让我对很多问题都有更好的理解,也让我对机器学习和AI产生了极大的兴趣,非常推荐。

 

本文秉承我一贯“长文慎入”的风格,可能会引起诸多阅读的不适之感,因此在最开头,我先说明下大概的结构,方便朋友们选择性阅读。第一部分主要就是对Transformer的技术脉络和发展做一个介绍。第二部分主要是围绕着车载图像感知、ViT进行展开。第三部分主要就是探讨下AI产业和自动驾驶的发展逻辑。最后一部分我们想初步来探讨下智能化对于汽车和汽车产业所带来的一些变化。

 

 


 

 

 

二、Transformer

 

a. Transformer的技术渊源和演进

 

Transformer架构是在《Attention is all you need》这篇论文中提出的,其实从这个标题中可以看出,Attention是主角,但Transformer威名远扬,因为Attention很早以前就有了,也是不断在发展,而Transformer让Attention真正开始成为AI世界的中心。

 

Transformer这篇论文的作者主要都来自于Google(包括Google Brain和Google Research),其最初的应用主要也是在NLP(自然语言处理,比如机器翻译等)上。DeepMind 的计算机科学家 Sebastian Ruder 对于21 世纪以来NLP的里程碑式进展进行了整理,如下图所示:

 

 

图片来源:Wikipedia,cnblogs.com/nickchen121

 

自然语言处理是一个典型的多向量输入和复杂输出需求的场景,比如让机器看一句话或者一段话一篇文章,你有可能是要一个简单回答(是还是否,对还是错),也有可能是要做个翻译,或者是要机器接一句对话,总结起来就是一个Seq2Seq的模型,不同的需求得到不同的输出。

 

 

图片来源:李宏毅公开课课件

 

之前NLP中比较经典的结构是RNN(循环神经网络),它其实就是把历史记忆要不断地传递给后续的输出中。这也比较好理解,过去发生的事会影响现在和未来。但影响多少,或者在传递的过程中会有多少磨损,不同的模型结构的思路和效果也不同。RNN的输出没法做到并行输出(这个可能也是记忆窗口比较短的原因之一,比如我们做阅读理解,如果读文章时是一个词一个词地看过去,往往读到下一句就忘了上一句的内容),从而处理速度也比较慢。为了解决很多重要的信息或者记忆(特别是比较早期的)在输出能够更好地保持合理的影响权重,机器学习和人工智能的研究人员也不断地提出和优化新的方法和结构,比如LSTM(长短期记忆模型)就是增加了一个贯穿始终的记忆输入来强化,而Attention则是将local的记忆窗口变成global的全局窗口,从而保持很全面的信息并争取得到更好地相关性判断。

 

所以Transformer出来后,RNN基本上也逐步走下了历史舞台。这里也放一张RNN和Self-Attention的对比,图片也是来自于李宏毅老师公开课的截图。

 

 

图片来源:李宏毅公开课课件

 

大概的铺垫讲完,下面就让我们来做一下大部分讲Transformer的文章都会干的事情,扒一扒Transformer的网络结构。

 

b. Transformer的结构解析

 

i. 总图概览:

 

 

 

图片来源:论文《Attention Is All Your Need》

 

这张图相信大家如果关注Transformer的都很熟了,它呈现了Transformer基本的模型结构。总体是一个Encoder(编码器,图中左半部分)和Decorder(解码器,图中右半部分)的结构,这也是比较经典的NLP的基础模型框架。

 

Encoder部分是先对输入做一个Embedding(嵌入),并且加了一个对位置的编码(主要是用正余弦函数和相位,这是Transformer模型的一个创新点),这也是考虑到一般的Attention过程中并没有位置方面的明确信息,而在NLP中位置信息是很重要的,同样的词在不同的位置(不同的上下文)意思也有很大的差别。Emdedding做完后就进入了编码器主要的结构单元,这其中Multi-Head Attention(多头注意力机制)是这个结构乃至整个Transformer架构的主角。Transformer中选择的是Self-Attention的机制来作为其核心网络单元的基础,用Multi-Head则是给Attention更多的维度来处理数据(这个也好理解,比如两个词或两件事之间的相关性,可能是多个层面和维度的)。其他的如Add&Norm(一种skip的技巧,类似于ResNet中的处理,可以加快处理速度),Feed Forward(前馈神经网络)都是比较常规的结构,也不赘述。这样的结构论文中作者是叠了6次——当然你可以调整为其他的数量来试(Nx)。
 
Decoder的部分和Encoder很类似,主要的差别一个是在Output作为输入时用了一个带Mask的多头注意力结构,简单的理解就是把Output数据输入来训练时,在一个时间点我们只能看到过去已经产生的输出,而对于这个时间点以后的输出是未知的,因此要把后面的结果给它遮起来。另一个差别是Encoder的输出要作为Decorder的一个输入(也就是右边结构的中间部分),这个也是经典的Encoder-Decoder模型的处理。
 
网上对于Transformer的架构扒得很干净了,大家有兴趣可以多去找些文章来看看,这里只对它里面的Embedding和Attention做进一步的延展介绍和讨论。
 

ii. Embedding 

 

Embedding(嵌入)其实是数学中一种基础操作,也是我们生活经常用的一种处理方法。嵌入的本质是一个单射函数,用数学的表达来说就是x:->f(x),如果X1不等于X2,那么f(X1)也不等于f(X2),并且这种对应关系还能保持其核心的结构特征不变(可能也要求函数要有可逆的特征)。

 

因此我们可以用Embedding来做很多的数据处理,主要就是将稀疏(比如离散的)的高维数据通过嵌入来变成稠密(比如连续的)低维数据。这样做不但对于我们的理解来说,还是计算的负担来说都大大的优化了。
 
在NLP中,因为要面对的是各种语言中可能数十万甚至百万量的词库,如果用整个词库数量维度来做向量编码,每个词的向量在对应的位置值为1,其他的位置都是0(也就是用1ofN encoding来简单粗暴处理),一方面是向量的维度会非常巨大,另一方面则是词与词之间都是独立不相关的(相互的向量内积为0),这显然也不符合现实情况。所以在NLP的技术发展中,Word Embedding(词嵌入)的技术发展就非常重要了。1 of N Encoding和Word Embedding之间的关系可以看下图所示:
 

 

图片来源:李宏毅公开课课件

 

在一个神经网络中,Embedding一般用在第一层或者是用在输出层。用在第一层网络时一般是调整数据维度和避免Over Fitting(过拟合),用在输出层的一种情况是这个输出要作为其他网络的输入,而先做一个嵌入处理,另外就是如果做相似度匹配(比如人脸识别)或者数据可视化也会使用。

 

图片来源:B站Up主技术喵视频

 

 

在神经网络中,Embedding部分的结构也是一个矩阵,或者我们叫Embedding函数,它的参数也是模型训练的一部分。根据不同的学习方式(监督学习、自监督学习和无监督学习)也有不同的训练方式,而无监督学习下的Embedding应该来说也是一个趋势,比较有名的一个应用是Auto-Encoder,它里面核心层的也是Embedding层,如下图所示,一个Auto-Encoder的网络结构一般是对称的,训练的目标是让输出和输入尽可能接近。如果把下图中的Hidden 2直接拿来做输出,也就是类似于Transformer中的Embedding结构了。

 

 

 

图片来源:B站Up主技术喵视频

 

iii. Attention

 

终于到Transformer模型的主角Attention了。正如这篇论文如此直白的标题“Attention is all your need”所表述的那样,Attention,即注意力机制,包含你所需要的一切。
 
其实注意力机制的逻辑也是好理解的。对于我们的大脑而言,比如我们看一个图片,我们大脑实际上只会重点关注和处理极少数的区域,而忽略或者不关注绝大部分的信息,这个实际上也是我们的大脑经过成千上万年的自然选择和不断进化的结果,并且可能是我们大脑最重要的能力之一。因此如果参考和借鉴人类大脑的这种基本操作,我们也许能够大幅优化模型效果的同时提高模型的效率,也因此更加接近智能的“真相”。
 
Attention在Transformer之前就已经存在并不断发展,在本文的前面部分,我们也提到了不论是RNN、LSTM还是早期的一些简单的Attention,或者是Transformer中的Self-Attention,都会考虑前后的相关性,并且不断去优化网络和模型结构,来更好地评估哪些是对于结果而言更具相关性的部分(也就是需要投放更多注意力的部分)。 下图是Andrej Karpathy在斯坦福大学的公开课的一页Slide,描述了Attention技术发展的时间脉络:
 

 

图片来源:Andrej Karpathy's lecture in Stanford University

 

Wikipedia上对于Transformer的词条介绍中有这么一幅图,基本上也是Attention技术发展的脉络图,同时也比较好的展示NLP中这些核心技术的发展及演进关系:

 

 

图片来源:Wikipedia

 

下图是技术喵在B站的视频的截图,这张图体现了类似的发展脉络(相关的技术的最早出现都远早于图中提到的论文的发表时间),前四项可以看成是Attention的不断丰富和完善的发展脉络,从Encoder-Decoder的架构、权重对齐、到视觉和多层结构中的Attention应用,基本的框架还是在RNN的基础上加Attention。而Transformer出现后,则是直接替代了RNN开始了NLP领域的大一统架构。

 

 

图片来源:技术喵B站视频

 

所以我们能看到,每一个技术的背后,都有前面许多技术的不断演进、迭代和组合。回到Attention本身来看,一个通用的Attention包括三个基本的部分,即Query、Key、Value。Query(查询)是发起需求,也就是我们要模型或网络做的事情。Key是特征值,而Value是一个对象的本征值,Key和Value的关系可以看成是一个对象的两种表达方式。Attention的运作可以简单地理解为通过看Query和Key之间的相关性(比如通过这两个向量的点乘或者是其他的关系式),然后来决定各个Value(或者是各个对象)对于输出结果的影响权重。由于这些向量的运算都是并行并且全局运行的,所以输出的结果也就考虑到了全局的相关性。

 

 

图片来源:论文《Neural Machine Translation By Jointly Learning To Align And Translate》

 

如果这其中的Query不是来自于外部目标,而是来自于网络中每一个的输入本身,这种Attention就是Self-Attention,也就是更关注的是输入数据本身的自相关性。具体的处理方式就是增加一个输入->Query编码的渠道(多一个矩阵),然后其他的和Attention是一样的。

 

 

 

 

图片来源:李宏毅公开课课件

 

如果我们把Embedding和Attention结合起来看,也可以把Embedding看出是Attention的一部分,经过了Embedding后,相当于是把输入的信息都映射到一个向量空间里,从而也更好地来计算彼此之间的相关性。并且Embedding有点类似于PCA(Principal Component Analysis,主成分分析),其处理完的数据集的分布本身也体现出了相互之间一定的自相关性。

 

Attention和Self-Attention可以说是Transformer以及很多后续的变种架构的灵魂了,从Transformer开始,各种Xformer都借鉴了这样的基础结构做了模型核心的Block。从下图中可以比较直观地看到他们相互之间的联系和区别。
 

 

图片来源:李宏毅公开课课件

 

c. Transformer的意义

 

Transformer比较重大的意义,我个人觉得是确立了Attention和Self-Attention这种其实也很符合人类的认知和学习模式的结构的核心地位,从而使得机器学习和人工智能进入了一个全新的发展期,大统一模型(或者至少阶段性的大统一模型)的出现成为了可能,在NLP领域已经比较明显,而在CV领域也挑起了星星之火,大有燎原之势。

 

Transformer出现后,以它为基础而发展出来一系列的变种和演进。比较著名的预训练模型BERT和GPT也都是在Transformer的基础上发展的——BERT是Transformer加上双向编码,采用Pretraining(预训练)加Fine Tunning(微调),进一步强化了模型的普遍适应性。
 
 

 

 

 

三、BEV、Occupancy Networks & Vision Transformer

 

a.BEV

 

BEV全称是Bird Eyes View,也就是鸟瞰图。常玩游戏的人应该对鸟瞰图都比较熟悉,它给玩家一种上帝视角的感觉,能够更好地掌控全局。特斯拉是最早将BEV加Transformer上车的公司(特斯拉在其2020年AI day上发布了感知网络HydraNet),同时特斯拉也是比较坚定地走纯视觉路线的主机厂。

 

对于纯视觉的路线来说,准确的测距是比较难但也是很关键的事情。一个主要的思路就是把2D的信息转换成3D。之前比较常规的视觉3D检测主要是基于视觉几何和深度估计的方法,这些方法也都有比较明显的局限性。相比之下,鸟瞰图其实是一种比较好的解决方案,之前获取鸟瞰图的方法比较常用的是逆透视变换(IPM),通过多相机的内外参标定和平面转换,加上多视角图像的拼接来获得鸟瞰图,但对于有一定高度的目标,依然还是会产生明显的畸变。对于像自动泊车这些应用来说是可以的,但在需要远距离感知的任务中就问题很大了。通过BEV特征建模的方式,能比较好地规避这些问题,我们接下来详细说明下。
 
比较早期的BEV特征建模是英伟达在2020年8月发表的一篇有关BEV的论文《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》,简写为LSS,所提出的,这是一种自底向上的建模方式。先估计每个像素的深度,然后投影到BEV空间中。
 

 

图片来源:论文《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》

 

得到了深度分布特征和图像特征后,将它们做外积,就会得到一个视锥特征。这个就论文标题中的“Lift”。将视锥投影到BEV平面。对其中的像素做处理:像素结合高度信息成为体素(voxel),具有无限高度信息的体素称为pillar,围绕着pillar做Sum Pooling(求和池化),就得到了有长宽高信息的BEV特征,这个过程就是“Splat”。有了BEV特征以后,就可以来做很多的任务了,这就是“Shoot”。

 

 

图片来源:论文《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》

 

LSS可以得到比较稠密的BEV特征,但由于要对每一个像素都做深度估计,计算量大。这种自底向上的BEV建模思路也不断在发展,包括BEVDET、BEVerse等都是基于LSS的思路做了更多的探索和延申。

 

另外一种是自顶向下的稀疏BEV特征建模,和自底向上所形成的稠密特征(同时带来更大的计算量和计算复杂度)不同,它形成的是稀疏BEV,这样带来的好处是计算量的降低,同时因为主要的目标是获得少数的一些Target框,所以即便是稀疏的BEV,加上Transformer的应用,也能够比较好的满足我们的所需。比较经典的是DETR(来自于Facebook AI的《End-to-End Object Detection with Transformers》这篇论文),这也是ViT首次用在目标检测上。大体的结构如下图所示,图像先经过CNN提取特征,然后经过Transformer和前馈神经网络(FFN)得到目标分类结果。
 

 

图片来源:论文《End-to-End Object Detection with Transformers》

 

DETR也移除了很多传统视觉检测中必要的模块,如Anchors和NMS(Non-Maximum Suppression,非极大值抑制),在Loss计算上选择了用匈牙利算法来计算,真正做到“End to End”,提高了检测效率。由于DETR主要是针对2D的检测,加上也存在一些待改善的地方,以此为基础,Deformable DETR、DETR3D、PETR、PETRv2等演变和改良方法不断涌现,其中从2D->3D是最重要的演变之一。《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》这篇论文中也对比了比较典型的几种处理方式。

 

 

图片来源:《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》

 

还有一种模型是自顶向下的稠密BEV特征建模。比较典型的就是BEVFormer,它是基于DETR3D发展而来,其基础框架如下所示:

 

 

图片来源:论文《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

 

相比于DETR3D,BEVFormer在参考点和采样点的选择上明显不同:因为它是稠密的,所以不需要额外去预测一些备选参考点,而是直接将得到固定的参考点坐标投影到2D视图中,得到参考点。其采样点通过BEV queries去预测的,每个BEV query预测N*Z*K个采样点。DETR3D没有引入采样点,而是直接从object queries预测N个参考点,再做多视图投影,并与多视图的2D参考点处的特征做交互。

 

Bevformer另一个创新之处是时序特征融合(temporal self-attention),即用前一帧和当前帧的BEV特征进行交互,获取当前帧缺失的时序特征,用来解决当前帧目标遮挡或者不稳定的问题。
 

 

图片来源:论文《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

 

除了纯视觉的方案外,目前在自动驾驶领域应用更多的还是多传感器融合的方案,激光雷达和摄像头是其中重要的两类传感器,它们的特征融合也是产学界热衷于探索和研究的方向。在BEV空间中进行多传感器投影的特征信息进行融合是比较有效的。这其中BEVFusion就是比较典型的多模态特征融合模型:激光雷达和摄像头各自进行特征编码后,前者的特征直接沿着z轴展开就是BEV特征,后者用LSS的模型来得到BEV特征,然后将得到的两种BEV特征进行拼接再输入BEV encoder进行编码,就得到了BEV特征。

 

小结一下上述的的几种BEV特征建模模型,相互之间的对比如下图所示:
 

 

图片来源:知乎-苹果姐

 

b. Occupancy Networks

 

特斯拉在2022年的CVPR上发布了他们自动驾驶的全新算法Occupancy Networks (占用网络),对之前的HydraNet做了进一步的升级。在发布会上,特斯拉自动驾驶新负责人Ashok Elluswamy也介绍了这种新算法能够解决很多“经典”算法中会遇到的诸如地平线深度不一致、有遮挡物、遇到数据集之外的问题而带来的困难。相比较于HydraNet当时提出的3个特征:BEV、固定矩形和物体检测,占用网络确实做了全面的升级:

 

  • BEV变成了体积BEV(Volumetric BEV),从2D的鸟瞰图升级成3D。

 

图片来源:特斯拉发布会图片,网络

 

  • 用占用检测替代了固定矩形,通过更高的分辨率(微小的cubes or voxels)来更精确的表征出物体的实际状态。

 


图片来源:特斯拉发布会图片,网络

 

  • 用体素分类(Voxels Classification)替代了物体检测,通过对体素是否被占用的检测更好地实现对物体和环境的检测,即便是出现了一些之前的训练集中没有遇到过的物体,也能通过对体素是否占用的识别而为正确的执行提供依据。

 

图片来源:特斯拉发布会图片,网络

 

占用网路让纯视觉路线也能实现类似于带激光雷达的视觉系统所形成的点云图那边的效果,并且更加稠密。

 

Occupancy networks最早出自于《Occupancy networks:learning 3D reconstruction in function space》这篇论文,相比于其他的几种3D表示方法:体素、网格和点云,占用网络可以得到更有效率且更高质量的效果,并且可以对各种类型的输入来重建其3D几何图形。它采用的是一种基于直接学习连续三维占用函数的3D重建方法,可以用一个神经网络来近似3D占用函数(给每个位置分配一个0、1之间的占用概率),并通过对网络的训练进行学习。

 

图片来源:论文《Occupancy networks:learning 3D reconstruction in function space》

 

c. NeRF
 

NeRF是来自于这篇文章《Representing Scenes as Neural Radiance Fields for View Synthesis》,最初的出现是为了做新视角合成的研究工作,本质思路就是基于体渲染的理论,使用MLP(Multilayer perceptron)去学习静态场景的隐式3维模型。由于NeRF技术的效果出色,所以自2020年提出后,学术界和产业界已经基于它拓展了很多的应用,非常火热。

 

NeRF是通过使用稀疏输入视图集优化底层连续体积场景函数来合成复杂场景的新视图的一种技术,主要功能,就是用静态多视角的照片来合成任意新视角的图片。

 

图片来源:论文《Representing Scenes as Neural Radiance Fields for View Synthesis》

 

使用的算法是fully-connected的深度神经网络而不是卷积,主要思路是用MLP来学习该场景的隐式3D模型表达,其输入是单个连续 5D 坐标(空间位置 (x, y, z) 和观察方向 (θ, φ)),其输出是该空间位置处的体积密度和与视图相关的发射辐射率,然后通过沿着相机光线查询 5D 坐标来合成视图,并使用经典的体渲染技术将输出颜色和密度投影到图像中。

 

 

图片来源:论文《Representing Scenes as Neural Radiance Fields for View Synthesis》

 

d. ViT.

 

让我们来看看Transformer怎么在图像和视觉领域中应用。

 

首先还是简单回顾下视觉神经网络中比较经典的卷积神经网络(CNN)。CNN一直都是CV领域的主流,学术界、产业界和传媒界也都有大量的研究介绍和说明,从通俗到晦涩一应俱全。这里我其实更想就CNN的生物生理基础做些说明。与神经认知机类似,CNN的设计也基于胡贝尔和威塞尔在20世纪五六十年代发现的与大脑视觉系统相关的几个关键信息。当人的眼睛聚焦于一个场景时,眼睛接收到的是由场景中的物体发出或其表面反射的不同波长的光,这些光线激活了视网膜上的细胞,本质上说是激活了眼睛后面的神经元网格。这些神经元通过位于眼睛后面的纤长的视觉神经来交流彼此的激活信息并将其传入大脑,最终激活位于大脑后部视皮层的神经元。视皮层大致是由一系列按层排列的神经元组成,就像婚礼蛋糕那样一层一层堆在一起,每一层的神经元都将其激活信息传递给下一层的神经元。
 

 

图片来源:《AI 3.0》,微信读书

 

因此在上世纪80年代杨立昆提出CNN的时候,他知道重要的不是复杂的特征,而是层的深度,重点是要多层。CNN的输入是一幅图像(图像每个像素的颜色和亮度一一对应的一个数值组)。最终输出是网络对于每种类别(比如狗或猫)的置信度(0~100%)。

 

其中间的隐藏层代表的是激活特征图(activation maps),它受到了大脑视觉系统中类似的“映射”的启发:胡贝尔和威塞尔发现,处于视皮层更下层的神经元是以物理形式排列的,它们形成了一个大致的“网格”,网格中的每个神经元只会对视野中相应的一小块区域做出响应。这些神经元对自己要响应哪一种边缘非常明确。有些神经元,只有当其感受视野中包含垂直边缘时,才会变得非常活跃;有些神经元只响应水平边缘;还有一些神经元则只对某些特定角度的边缘做出响应。因此借鉴了这种方式,CNN的隐藏层中的单元是重要视觉特征的探测器,每个单元会在视野的特定部分寻找其指定特征。
 
对于连续的图像的处理,早期常用的架构就是CNN+RNN,比如在2016的CVPR论文《CNN-RNN: A Unified Framework for Multi-label Image Classification》对此也有蛮清晰的论述,包括在我们上面说Attention的发展历程中提到了Visual Attention时涉及的论文《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》用的也是CNN+RNN的架构。所以其实CNN和Attention的联系是挺紧密的:CNN类似于是卷积窗口里的Self-Attention,相较而言,Transformer则是全局的Self-Attention。也因此,Transformer在CV中的应用也是有基础的,只是相比于CNN在小数据模型上的优势,需要更大的数据才能避免Over fitting而将其优势发挥出来。
 

 

图片来源:李宏毅公开课课件

 

把Transformer用在视觉领域就是ViT(Vision Transformer)。自Transformer面世以后,将其运用到视觉和图像领域上一直也是热点方向,2020年发布的DETR、iGPT、ViT、IPT、SETR、CLIP IPT、SETR 以及2021年以来如DeiT、PVT、TNT、Swin、CSwin等这些重要的ViT都是基于Transformer。ViT一般的结构如下图所示,包括对图像的前期处理(Split(分割成块),Flatten(压平),Embedding(嵌入。包括位置的嵌入))、Transformer的编码器(包括Multi-Head Self Attention Layer(多头注意力层)、Multi-Layer Perceptrons Layer(多层感知器)和Layer Norm(LN))、预训练(Pre-train)和微调(Fine-tune)。

 

图片来源:论文《Vision Transformer ViT Architecture》

 

实际应用的过程中,往往会把CNN的前端和Transformer结合起来,用更小窗口的卷积来增加稳定性和提高精度,也将基本像素转换为特征图,然后用分词器将特征图转换成一系列的分词,再输入到Transformer中。和CNN相比,Transformer严重依赖于大量的数据进行大规模训练,所以数据的数量和质量显著影响ViT的范化应用和鲁棒性。

 

e. 应用:以HydraNet和Occupancy Networks为例
 

让我们把上述的几个模块综合起来,来看看特斯拉所发布的HydraNet和Occupancy Networks。

Hydra,水螅,或者是九头蛇,一个躯干多个头。Tesla的HydraNet也是如此:图像通过共享的主干网络进行同步和融合,处理的结果根据不同的需求,生成多个“头”。

 

图片来源:网络

 

计算机视觉任务中,一般物体检测都遵循通用的一个结构:Input->Backbone->Neck->Head->Output:

 

  • Backbone是特征提取网络,用于识别图像中的多个对象以及提取这些对象的特征信息。对比Transformer的结构来理解,其实Backbone也类似于一种Embedding。比较常用的Backbone网络如AlexNet、ResNet和VGGNet。在HydraNet中,Tesla用的是《Designing Network Design Spaces》这篇论文中提出的正则网络架构RegNet,它可以对输入的图像进行多尺度和多分辨率的特征提取。

     

  • Neck部分往往是用来提取一些更精细的信息,比较常用的是FPN、BiFPN等。

     

  • Head就是根据不同的任务来对特征图进行不同的处理。

     

在HydraNet中,它将车身的8个相机所拍摄到的图像信息输入到Backbone(RegNet)中,经过处理后,将这个8个图像进行多机位融合和时间融合。这里就是我们前面所说的为汽车建立起BEV感知的部分了。

 

 

图片来源:特斯拉AI Day发布会,网络

 

完成了BEV感知部分后,就到了输出的部分,将输出分成多个Head,来提供和满足不同的应用需求,也方便各自做一些fine tuning的工作。综合的HydraNet架构如下图所示:

 

 

图片来源:特斯拉AI Day发布会,网络

 

Occupancy Networks的总体框架和HydraNet差不多,更多是在HydraNet的基础上对其不足进行改进和完善——如上面介绍Occupancy Network时所提到的那些。

 

相比于HydraNet,Occupancy Networks在输入端使用了12 bit的raw photon count(也就是在ISP处理前的图像信息,因为比常规的8bit图像多了4bit,从而也就多了16倍的动态范围)。在输出端,Occupancy Networks主要输出3D Occupancy特征和Occupancy Flow(即将video序列转换成 video 的向量空间,包含速度、加速度等特征信息),并借鉴了上面说明的NeRF的思路,可以给Occupancy Network提供基于Query的亚像素、变分辨率的几何和语义输出(图中的Queryable Outputs)。
 

 

图片来源:特斯拉AI Day发布会,网络

 

Occupancy Network能够更好地解决Corner Case的问题,即便是在面对没有见过的物体,也能够通过对是否占用的判断来进行规避。

 

f. CV领域的ChatGPT时刻:

 

相比较于Transformer在NLP领域的一统江山,在CV领域尽管Transformer已经初露峥嵘,但离大一统依然还远,还有很多的工作要向前探索。

 

NLP中输出往往可以从输入中找到答案,输入和输出的信息特征向量可以说是共享的,因此很多人说NLP是闭环的,Decoder可以做很多的事情。而CV领域中,图像的信息密度比较低,所以CV往往是重Encoder,并且输入和输出往往是完全不同类型的信息,这个使得CV领域的大模型要非常巨大才有可能达到NLP涌现的效果(Meta的SAM已经很大了,但可能还是“不够大”)。
 
现在很多的工作也是将CV和NLP进行融合起来,将图像特征和语义特征结合起来(类似于VLP「Vision Language Pre-training」的工作),其实这个也比较符合直觉,就像我们日常的生活和交流,我们将看到的东西,要转换成语言的输出才能更好地沟通和传递。所以可能CV领域的ChatGPT之路,是在CV和NLP相互融合中探索出来?我们拭目以待。
 
 

 

 

四、AI和自动驾驶产业发展的逻辑和拐点

 

讲完了Transformer和它在CV特别是车载视觉中应用,我们接下来也探讨下AI技术和产业的发展。随着大模型的蓬勃发展,很多模型的能力“涌现”开始爆发,并且正在对很多的领域和产业进行变革。现在很难说这种变革会到什么程度,但直觉上来说,我觉得可能会比以往的变革都更加彻底,更加深刻。

 

最近一直在看杰夫·霍金斯的书,包括《新机器智能》和《千脑智能》。霍金斯是一个非常传奇的人,执着于对人脑的研究,但又不是一个常规的学者(他本身也是一个非常成功的创业者,掌上电脑公司Palm的创始人,也是美国国家工程院院士,2005年他和杜宾斯基、迪利普共同创办了Numenta,一家专注于研究大脑新皮质的工作理论,并将大脑知识应用到机器学习和机器智能领域的公司)。他这两本书的前提,是他坚信人工智能将从目前的深度学习过度到模仿大脑的原理,通过运动来学习和使用参考系来编码知识。这可能在他成书的时候还不明显,但现在我们确实已经看到了这种变化的发生。
 
我印象最深刻的是他对于新皮质的研究和表述,这里我整理了几条他对于新皮质规则的论述:
 
  • 整个新皮质结构是一个记忆系统,它根本就不是一台计算机(或者说现在架构下定义的“计算机”)。

  • 新皮质唯一知道的是进入输入轴突的模式流。

  • 你理解世界的方式是在不断变化的输入流中找到不变的结构。

  • 新皮质将不变的表征和当前的输入结合起来进行详细预测。

     

看完你的感觉是啥?反正我是被震惊了,现在AI的发展基本上就是按照这样的方向在走。当然考虑到霍金斯在人工智能圈的影响力,我觉得是否本身大家就是按照他的思路指引来探路?

 

基于霍金斯提出的框架,我们来看AI的发展和应用加速的逻辑,这其实蛮类似我们对自身学习机理的本质的探究——AI的神经网络就类似于新皮质的结构,它所构成的不是一台超级计算机,而是一个超级记忆系统。这就像我们以命题逻辑和一阶逻辑的基础来构建计算机和其他的工具生态,但对于更进一步的智能,我们要回到命题逻辑之前,去看看这些逻辑形成的网络和记忆系统,它们可能很难用现有的东西去解释,但我们的学习都建立在它们之上。
 
在《Emergent Abilities of Large Language Models》这篇论文中,作者提出了大语言模型的能力涌现,并且给出了“涌现”的定义:如果一种能力不存在于较小的模型中但存在于较大的模型中,这个能力就是涌现的。文中也对市面上主流的大模型在多个能力上进行测试,可以看到随着模型规模的显著提升,在跨过了一定的规模门槛后,相关的能力爆发式提高,呈现出“涌现”效果。这也说明了对于模型能力的评估,不能只是通过在小模型的情况下来简单评估和预测,可能大模型下会有完全不同的能力。

 

图片来源:论文《Emergent Abilities of Large Language Models》

 

也因此,可能也可以解释,为什么Transformer,加上巨大数据和训练量,实现了“涌现”。从而推动了大模型时代的到来和蓬勃发展,也拉开了AI产业进入到一个新的阶段。如第一部分对Transformer的说明时我提到,Transformer出现比较大的一个意义,就是确立了Attention和Self-Attention这种其实也很符合人类的认知和学习模式的结构的核心地位。如果说人工智能回到神经网络的大道上,就是回归了以新皮质为基础的模拟大脑之路;神经网络本身的训练和参数选择优化,就是对知识的沉淀和对记忆系统的构建——核心就是对于信息特征的提取和优化;那么Attention和Self-Attention所带来的全局特征关联,就是让神经网络和新皮质的记忆系统一样能够更快更好地来实现预测——霍金斯认为,智能的基础是预测,而不是行为。在大模型的情况下,特征提取(特别是不变特征的发现)以及全局的关联效果会大幅优化,从而大幅提升能力。

 

图片来源:《新机器智能》,微信读书

 

另一方面,就是随着特征提取的逐步完善和确定(类似于新皮质中“不变的特征”),输入数据的质和量就是持续提高模型能力的关键了,巨量有效的数据才有可能产生能力的“涌现”。

 

回到自动驾驶来看,我觉得过往整个产业在这块的探索也是和人工智能整个产业的发展历程类似的。不论是从L1、L2切入往L2.5、L3发展,还是一开始就干L4而后向下“妥协”,最开始的尝试就像人工智能的发展在“符号逻辑”和“神经网络”之间的摇摆。符号逻辑是符合人的思维输出的,但一旦复杂性增加后就会很难持续,而“神经网络”在数据和模型都不完善时效果很差,只有在三要素算力、模型、数据都比较到位时才会凸显优势。
 
借用OpenAI的Hyung Won Chung在纽约大学讲座中的一张Slide,AI模型或系统的发展先从人类定好规则的基于规则的系统(Rule-based Systems)开始,然后到经典的机器学习(对设定好的特征来进行处理),再到监督/自监督的深度学习(特征的提取也通过训练让机器自己学会),再下一步应该就是强化学习(loss function也可以通过训练和学习来获得)。自动驾驶的AI系统发展的大致方向应该也差不多,强化学习(RLHF)现在也是非常热的研究方向。
 

 

图片来源:Hyung Won Chung's Lecture in NYU

 

Andrej Karpathy之前从Open AI离开加入特斯拉负责自动驾驶后,曾在各种行业会议等场合,描绘出了特斯拉的智能驾驶要素:大模型、大数据、大计算中心。这其实也是特斯拉整个FSD系统构建的基石框架,如特斯拉在其2022年的AI Day上介绍其FSD所展示的结构一样(见下图),除了核心的神经网络(包括Occupancy和物体识别)外,训练设施(大计算中心,Dojo,2022年AI Day时已经是部署了14000个GPU了)、训练数据(大数据,包括自动标注,模拟仿真和数据工程)和AI编译和推理(使特斯拉能够部署更高级的调度代码,面向整个FSD平台来做调度)也是极其重要的组成部分,它们一起支撑了神经网络在特斯拉汽车上的运行,而神经网络的运行又生成了汽车所面对的周围世界的向量空间。然后基于这样基础上来做规划和执行(Planning,这几块有机会都可以展开成文),使得汽车能够避免碰撞顺利行驶。因此对于整个的FSD系统而言,如果没有这些基础板块的支撑,其神经网络和规划执行是很难有效的。

 

 

图片来源:特斯拉AI Day发布会,网络

 

以Training Data的部分为例,按照图中显示的三块内容,也是和以数据为中心的AI(Data-centric AI)的目标比较吻合的。相比较于传统的以模型为中心(Model-centric)的方式,以数据为中心的方式更加侧重于提高数据的质和量,数据决定了模型能力的上限。下图(图片来源:《Data-centric AI: Perspectives and Challenges》)展示了两种AI方式的对比,可以看到以数据为中心的AI模式的研究自2021年开始就大幅飙升。

 

图片来源:论文《Data-centric AI: Perspectives and Challenges》

 

从OpenAI对于其GPT模型的论文描述来看,他们花了特别多功夫在提升数据的质量和数量上,因此也可以说,海量优质的标注数据,是Open AI的最核心资产。

 

这里面其实有一个核心的逻辑,就类似于上面我们说的,如同新皮质的机理一样,经过无数次的模式流和信息输入,最终会形成一些稳定的、不变的特征——也就是模型最终会收敛到一个极优化的状态(可能就是Transformer的最终形态,或者在比较小范围内波动的状态),数据的质量和数量就是能力提升和竞争力的关键要素(甚至可能是唯一要素了)。 
 
如果以这个逻辑,我们再来看城市NOA,我觉得它是不是自动驾驶的拐点不好说,但它一定会是竞争的主战场和焦点,甚至是胜负手。开城获取数据的路上,如果没赶上或者没获取有效的数据,竞争力就会打很大的折扣。特斯拉在2022AI Day上公布的FSD测试版的用户,从2021年的2000名,增长到2022年的160000名,伴随着用户数飙涨的是,模型、数据和软硬件系统的大量迭代和升级。
 
 

 

 

 

五、智能化由此给汽车产业带来了哪些变化

 

本文的最后一部分,我们想来简单探讨下智能汽车,或者说汽车的智能化,将给汽车产业带来什么样的变化。当然智能化给汽车产业带来的变革是全方位的,这里更多是从一个产业投资的角度,用更粗的颗粒度管中窥豹了。

 

a. ASP的提升

 

首先最直观也是最直接的,是终端ASP提升拉动了整个产业价值的巨大增长。

 

汽车智能化会带来汽车ASP的提升,这个逻辑应该大家都是认可的。虽然我也没有找到合适且比较全面的数据,但相信大家从特斯拉、理想、蔚来、小鹏、问界、极氪等主机厂车型的售价和传统的或智能化色彩比较弱的车型售价对比都会有明显的感受。我们也可以从手机产业的发展来做个对比,从下面这张图(单位是美元)可以看出,智能手机本身的ASP先是随着渗透率的提升而降低,然后到达一定阶段后又开始提升。而随着智能手机的渗透率不断提升,整体手机的ASP是一直持续增长的。
 

 
图片来源:IDC,招商银行研究院,雪球
 

即便是现在整体手机产业的总量增长停滞甚至下滑,更高价值的智能手机的占比一直持续提升,从我们国内的智能手机产业的相关数据也能看到这样的趋势。

 

图片来源:Counterpoint Market Monitor

 

当然这个过程中也会直接带来产业链的价值重塑和技术升级。智能化所需要的支撑链条,最直接的软件、芯片、传感器、显示等(相比于智能手机的计算机属性,智能汽车更多的是机器人属性,因此除了“计算机”属性的支撑链条外,智能的执行部件也是重点),在智能时代都会迎来巨大的规模增长和爆发。汽车的智能化也一定会带来这样的变化。

 

以芯片为例,传统燃油汽车搭载的芯片数量约在500-600颗左右,新能源汽车搭载芯片数量为传统燃油车的2-3倍,而智能化汽车所需芯片数量有望达到传统汽车的8-10倍。以特斯拉 Model Y为例,其搭载的芯片数量约为3500颗。传感器更是如此(传感器的用量提升本身也拉动了芯片用量的增加,很多车载传感器也都MEMS化了),在智能化的趋势下,传统的车身、动力、底盘的传感器要用得更多,而和ADAS、自动驾驶直接相关的智能传感器的增量就更加显著了。
 

b. 软件价值比例提升

 

另外一大块就是软件了,软件的价值比例,往往也是终端智能的一个重要指标。在这个系列的第一篇【滴水研究】智能时代纪事(一)中,我说计算机出现的一个重大意义就是让软件成为了工具的核心,人们花在软件上的时间,要远多于在硬件上的时间,除非这个硬件就是软件的载体。

 

因此对于汽车而言,能否成为一个智能终端是非常关键的,从出行的意义而言,它的重要性已经毋庸置疑,因此汽车产业过往一直就是人类社会最大的几个产业之一。但如果跻身智能终端,它整体的产业价值,以及在整个社会产业的地位和影响力,在之前已经不低的基础上,都会有巨大的提升。很多的主机厂一直都在寻找汽车未来的定位,软件化和智能化是定位变化的关键。

 

汽车软件价值量和占比持续提升肯定是一个明确的趋势,罗兰贝格之前对主机厂、Tier 1、软件供应商等做了大量的调研,他们认为单车软件价值将从2022年的8000-16000元的区间增长到16000-32000元区间,软件占BOM比将从4-9%提升到8-12%。不同类型的主机厂的单车软件价值和占比如下图所示:

 

图片来源:罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》

 

而从不同功能域的占比来看,智驾和座舱的软件的价值占比也是持续提高的趋势(目前占比已经是比较大了)——总体绝对价值量都是持续提升,不过智驾和座舱的软件部分增速将显著更高。

 

 图片来源:罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》

 

从层级软件的比例来看,则基本保持稳定,应用层占比稳定在50%以上,应用层直接和用户相关,关乎用户体验,本身也是不同车企竞争的焦点。

 

图片来源:罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》

 

对于行业头部公司而言,软件业务比例提升是不断强化生态和增强用户黏性的关键,过去互联网和移动互联网的发展也展示了数据和用户能够创造出天量的价值,催生出巨无霸的公司——这些公司真正的产品其实是其用户,例如你和我,而他们真正的客户则是那些获取我们在使用这些免费服务时的注意力和信息的广告商。

 

我们在使用大型科技公司如腾讯、阿里、华为、苹果、Google、亚马逊等提供的服务时,我们会以图像、视频、文字或语音等形式直接为这些公司提供样本,这些样本可供公司更好地训练其人工智能程序,这些改进的程序能够吸引更多用户来贡献更多数据,进而帮助广告商更有效地定位其广告投放的对象。而我们提供的训练样本也可被公司用于训练程序来提供企业服务,并进行商业收费,例如计算机视觉和自然语言处理方面的服务。
 
这方面智能驾驶也类似,看看特斯拉的数据标注是怎么做的:每天都有成千上万的人开着特斯拉的车在各种路况下跑,源源不断地为其AI网络提供庞大的训练数据集,然后他们使用半监督的神经网络进行数据标注,不断地优化其FSD,也不断地提升用户体验:用户对其产品的使用也不断完善其产品,用户变成了产品的一部分。
 
除了增强生态和客户黏性外,软件服务业务的量比提升也会贡献更好的业务结构和利润。对此我们可以来看看苹果和特斯拉这两家顶级公司的数据:
 
苹果在其2023财年第3财季的最新业绩报告中披露,其全球付费订阅用户数量已经突破10亿大关,这一成就使得公司的服务业务迈上了新的台阶。从下表也可以看出苹果的软件和服务的收入占比的变化,从2013年以来一直就持续在提高。
 

 

图片来源:MacroMicro.me

 

而从毛利率和毛利贡献的情况来看,过往六年(2017-2022)服务业务的毛利率一直是持续提升的趋势,并且显著高于其产品毛利率,同时随着服务业务收入体量和占比的提升,其毛利贡献占比也愈发显著,从而拉高苹果整体的毛利率水平。

 

 

图片来源:Apple 2022 & 2019 10-K

 

特斯拉在2022年财报中披露了自2016年以来约有 40 万客户购买并支付了 FSD,这些订购也构成了特斯拉资产负债表中的较高的递延收益(23年Q3报中余额超过30亿美金)中的很大一部分,并且随着其FSD的推广开始逐步确认收入:2021年确认了3.12亿美金,2022年确认了4.72亿美金,而在2023年预计将确认6.39亿美金。特斯拉没有披露毛利的数据,但不少分析师认为这部分毛利很高,甚至接近100%。尽管目前FSD的占比还不高,但Deepwater Asset Management 分析师吉恩·蒙斯特 (Gene Munster) 长期看好特斯拉,他认为 FSD 将在五年内为特斯拉产生高达200亿美元的年收入——这个预测可能过于夸张,但也体现了智驾软件业务的特性:具备指数级爆发的潜在能力。可以预期的是,这部分业务比较快速的增长,同时也在利润贡献中的占比也将持续走高。

 

c.从投资和生意模式看汽车产业的变化

 

让我们从投资和生意模式的角度来观察下汽车产业链的变化。从投资的角度来看,对产业发展的判断有两个很重要的要素:成长和周期,这两者往往是并行前进的。判断究竟是它们中的哪一个在主导是关键。周期主导的阶段的核心是存量,主要是通过关注产业中各个环节的水位变换、结构的替代等来寻找周期中的成长逻辑。而成长主导的阶段的核心是增量,主要就是在需求和供给不断地螺旋相互刺激过程中创造出大量的发展机遇,当然过程中也要关注成长中的周期状态更好地进行布局。周期主导和成长主导的关键因素是技术的不断发展成熟,而大的投资和财富积累机会往往都是在成长主导的产业中诞生。

 

汽车智能化所带来的就是成长主导的大浪潮,不论是单车ASP的提升,还是软件化、智能化带来的价值边界延伸扩张,都将带来整个产业价值量的成倍增长。可以说这至少是本世纪第三个十年里最主要一个的成长主导的大产业了。整个汽车产业链都会在智能化的大浪潮中被充分洗礼。
 
从生意的模式看,如果以规模和盈利能力为两个坐标轴,我们把生意模式大体分成四类:

 

图片来源:滴水石开

 

这其中护城河最高的生意模式肯定就是图中右上角的“瘾”了,具备大规模高收入的同时可以做到高利润和高盈利能力,用“瘾”来表示也蛮贴切,这种模式下,往往其给用户的价值增加值很多不是物质上的,而是精神和感受上的,既包括人体和人性中固有的“瘾”,也有“独一无二”而不得不依赖的“瘾”,还有依托于强大的生态体系网络而形成的极高迁移成本的“瘾”,除此以外可能还有很多的形态,总之它会让其上下游都产生依赖性而不断强化并不断扩大,并且其扩张的路径边际成本很低或者是不断下降从而也不断强化其盈利能力,然后在正马太效应中不断循环。茅王如此,互联网中的超级App如此,操作系统如此,顶尖的奢侈品、智能终端、半导体公司也是如此。但能够享受这种模式的公司是少数的,一将功成万骨枯,成王路上多屠戮。

 

规模成本(右下角)则是比较常见也有比较多的企业分布的。核心逻辑是规模本身就有正向效应。在这个区域中,大规模量产的能力和成本控制是非常关键甚至定生死的,因此产品定义的效率和精益管理的能力就非常重要了,这也是将生意模式从“规模成本”上升到“瘾”的基础。
 
高精尖(左上角)往往出现在产业链的中上游,由于技术或者工艺的门槛极高,或者扩散很困难,因此进入门槛高。但需求也有局限,往往是闷声发财的特征,大家常说的“隐形冠军”很多都属于此类。
 
基础杠杆(左下角)应该是绝大多数公司分布的区域了,基本上就是“一分耕耘一份收获”(绝大多数的人也都是如此),这个本身也是常态,并且也只有大部分是如此,才会有形成整体的“稳态”的基础。
 
结合上述的“投资”和“生意”两个视角来看汽车产业链的变化和机会,总结起来就是,在一个由智能化带来的“成长主导”的大产业变化中寻找“瘾”、“规模成本”和“高精尖”三类的发展机会。汽车的智能化(包括其中非常重要的软件化)会增强汽车产业出现超级终端和超级生态公司的概率——尽管这也可能是其他智能化领域的超级终端延展进入汽车领域而出现的,而超级终端或超级生态的出现势必带来产业链上巨大的产业增加值的“势”,从而给产业链上的优质公司带来巨大的发展机遇。
 
更进一步地说,智能化将给汽车产业成倍地带来产业杠杆。而我们要寻找的,是能够承载或者把握住这种杠杆,并且持续能实现资源放大的支点。这其实也是《纳瓦尔宝典》中所提到的,善用杠杆(广义的杠杆),提升效率。
 
 

 

 

 

六、后记

 

最近看了Yann Lecun主题为《From Machine Learning to Autonomous Intelligence》的演讲(这个主题他在多个场合都演讲过),这个演讲其实是好几个主题的合集。在这个演讲中,他说明了为什么他不担心AI(至少是目前的AI水平)对人类形成威胁——他觉得目前还是目标驱动的AI系统,会学习,会推理,会规划,但都是在安全可控的范围内,且目前AI的智能水平远远不及人类的智能,如果按照丹尼尔卡尼曼对大脑的“系统一”和“系统二”的分法,现在的AI能够比较好完成“系统一”的任务,但做不了“系统二”的任务,它们不知道这个世界是怎么运行的。

 

于是他针对“How could Machines Learn to Understand the World?”进行了讨论,他提出了“Joint-Embedding Predictive Architecture”(简称为“JEPA”),具体的这里就不展开了,但这让我想到《新机器智能》第六章的“新皮质是一个整体”这一节中的描述:“那么如何理解联合区呢?迄今为止,我们看到了信息是如何在新皮质的特定感觉区上下流动的。向下流动的信息会加入实时输入,并用来预测我们之后的感受和行为。同样的过程在各种感觉之间也会发生,即视觉、听觉以及触觉之间......一旦你理解了这些感觉多么紧密地相互关联在一起,你也将得出结论,即整个新皮质,包括所有感觉区、运动区以及联合区,都是一个整体。是的,我们的确有视觉皮质,但那只是其中的一个部分。在这个统一而包罗万象的感觉系统里,图像、声音、触觉以及它们的结合,都在一个多分支层级里面上下流动。”再加上上面我们再探讨CV领域的大统一架构时,有提到的“CV+NLP”相互融合的方向,或许“五感合一”的特征融合或者特征向量空间是智能下一个阶段的方向合关键?
 
未来之路,也许答案就在我们自己身上。求诸己身,亦是格物。

 

 

参考资料:
  1. 书籍:

    1. 《新机器智能》

    2. 《千脑智能》

    3. 《AI 3.0》
  2. 论文(在arxiv上都能找到):

    1. 《Attention Is All You Need》

    2. 《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

    3. 《Neural Machine Translation By Jointly Learning To Align And Translate》

    4. 《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》

    5. 《End-to-End Object Detection with Transformers》

    6. 《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》

    7. 《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

    8. 《Occupancy networks:learning 3D reconstruction in function space》

    9. Representing Scenes as Neural Radiance Fields for View Synthesis》

    10. 《Vision Transformer ViT Architecture》

    11. 《Emergent Abilities of Large Language Models》

    12. 《Data-centric AI: Perspectives and Challenges》
  3. 视频:

    1. 李宏毅公开课

    2. B站Up主技术喵视频

    3. 特斯拉AI Day
  4. 报告:

    1. 罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》

    2. Yann Lecun《From Machine Learning to Autonomous Intelligence》
  5. 网络文章链接:

    1. 深度学习中的注意力机制-CSDN博客

    2. easyaitech.medium.com

    3. 万字长文盘点时序融合在BEV感知中的应用(上)

    4. 自动驾驶感知新范式——BEV感知经典论文总结和对比(上)

    5. 特斯拉Occupancy Network正确解读(NeRF监督的使用)

    6. A Look at Tesla's Occupancy Networks

    7. Occupancy Networks:基于学习函数空间的三维重建表示方法

    8. Neural Radiance Fields (NeRF)系列

    9. Robot Challenge Screen

    10. Tesla's HydraNet - How Tesla's Autopilot Works

    11. 为何 CV 里没有出现类似 NLP 大模型的涌现现象? - 知乎

    12. 蹲一个CV的ChatGPT时刻

    13. https://36kr.com/p/2210477751595657

    14. GPT模型成功的背后用到了哪些以数据为中心的人工智能(Data-centric AI)技术?

    15. Strategy Analytics:2021年全球智能手机批发ASP突破300美元大关 收益将在2027年之前继续增长

 

 

 

- End -

 

 


 

 

 

 
 

 

发展动态

DEVELOPMENT TRENDS