【观点分享】【滴水研究】智能时代纪事:If AA(Automotive)I is what you need......
图片来源:网络
一、前言
随着ChatGPT和汽车智能驾驶的火爆,Transformer也火热出圈。谈及人工智能,必谈Transformer。Transformer早在2017年被提出,先是在AI学术圈和产业圈引起关注和热议,经过了这些年的广泛的实践和各路大神的贡献,Transformer可以说也成为AI发展历史上非常重要的一个模型了。
关于Transformer解读和延伸的文章,那真是铺天盖地层出不穷,而CV领域也期待能够像NLP一样出现大一统的模型架构,大量的学术圈和产业圈大佬对Transformer在CV中的应用不断地探索和突破,特别是在特斯拉将Transformer应用上车后,智能汽车产业界热情高涨。作为专注在汽车产业投资的机构和组织,我觉得多少也有必要来蹭蹭热度,进行研究。汽车智能是否进入到一个更大突破更高速发展的阶段,从而使汽车真正成为一个“智能终端”,真正的“智能机器人”,这个也是我们想要探讨和关注的。
如同我之前的很多文章一样,不可避免地会引用很多公开的资料或者书籍,因此也先对这些被我引用资料的作者表示感谢,具体的参考资料在最后会一一列出,而如果有些我引用了但是没有提及,也请见谅,难免有些遗漏。特别地我想感谢和推荐下李宏毅老师的公开课,生动(尤其是对宝可曼的数据训练,你是认真的么?)而又清晰地讲解让我对很多问题都有更好的理解,也让我对机器学习和AI产生了极大的兴趣,非常推荐。
本文秉承我一贯“长文慎入”的风格,可能会引起诸多阅读的不适之感,因此在最开头,我先说明下大概的结构,方便朋友们选择性阅读。第一部分主要就是对Transformer的技术脉络和发展做一个介绍。第二部分主要是围绕着车载图像感知、ViT进行展开。第三部分主要就是探讨下AI产业和自动驾驶的发展逻辑。最后一部分我们想初步来探讨下智能化对于汽车和汽车产业所带来的一些变化。
二、Transformer
a. Transformer的技术渊源和演进
Transformer架构是在《Attention is all you need》这篇论文中提出的,其实从这个标题中可以看出,Attention是主角,但Transformer威名远扬,因为Attention很早以前就有了,也是不断在发展,而Transformer让Attention真正开始成为AI世界的中心。
Transformer这篇论文的作者主要都来自于Google(包括Google Brain和Google Research),其最初的应用主要也是在NLP(自然语言处理,比如机器翻译等)上。DeepMind 的计算机科学家 Sebastian Ruder 对于21 世纪以来NLP的里程碑式进展进行了整理,如下图所示:
图片来源:Wikipedia,cnblogs.com/nickchen121
自然语言处理是一个典型的多向量输入和复杂输出需求的场景,比如让机器看一句话或者一段话一篇文章,你有可能是要一个简单回答(是还是否,对还是错),也有可能是要做个翻译,或者是要机器接一句对话,总结起来就是一个Seq2Seq的模型,不同的需求得到不同的输出。
图片来源:李宏毅公开课课件
之前NLP中比较经典的结构是RNN(循环神经网络),它其实就是把历史记忆要不断地传递给后续的输出中。这也比较好理解,过去发生的事会影响现在和未来。但影响多少,或者在传递的过程中会有多少磨损,不同的模型结构的思路和效果也不同。RNN的输出没法做到并行输出(这个可能也是记忆窗口比较短的原因之一,比如我们做阅读理解,如果读文章时是一个词一个词地看过去,往往读到下一句就忘了上一句的内容),从而处理速度也比较慢。为了解决很多重要的信息或者记忆(特别是比较早期的)在输出能够更好地保持合理的影响权重,机器学习和人工智能的研究人员也不断地提出和优化新的方法和结构,比如LSTM(长短期记忆模型)就是增加了一个贯穿始终的记忆输入来强化,而Attention则是将local的记忆窗口变成global的全局窗口,从而保持很全面的信息并争取得到更好地相关性判断。
所以Transformer出来后,RNN基本上也逐步走下了历史舞台。这里也放一张RNN和Self-Attention的对比,图片也是来自于李宏毅老师公开课的截图。
图片来源:李宏毅公开课课件
大概的铺垫讲完,下面就让我们来做一下大部分讲Transformer的文章都会干的事情,扒一扒Transformer的网络结构。
b. Transformer的结构解析
i. 总图概览:
图片来源:论文《Attention Is All Your Need》
这张图相信大家如果关注Transformer的都很熟了,它呈现了Transformer基本的模型结构。总体是一个Encoder(编码器,图中左半部分)和Decorder(解码器,图中右半部分)的结构,这也是比较经典的NLP的基础模型框架。
ii. Embedding
Embedding(嵌入)其实是数学中一种基础操作,也是我们生活经常用的一种处理方法。嵌入的本质是一个单射函数,用数学的表达来说就是x:->f(x),如果X1不等于X2,那么f(X1)也不等于f(X2),并且这种对应关系还能保持其核心的结构特征不变(可能也要求函数要有可逆的特征)。
图片来源:李宏毅公开课课件
在一个神经网络中,Embedding一般用在第一层或者是用在输出层。用在第一层网络时一般是调整数据维度和避免Over Fitting(过拟合),用在输出层的一种情况是这个输出要作为其他网络的输入,而先做一个嵌入处理,另外就是如果做相似度匹配(比如人脸识别)或者数据可视化也会使用。
图片来源:B站Up主技术喵视频
在神经网络中,Embedding部分的结构也是一个矩阵,或者我们叫Embedding函数,它的参数也是模型训练的一部分。根据不同的学习方式(监督学习、自监督学习和无监督学习)也有不同的训练方式,而无监督学习下的Embedding应该来说也是一个趋势,比较有名的一个应用是Auto-Encoder,它里面核心层的也是Embedding层,如下图所示,一个Auto-Encoder的网络结构一般是对称的,训练的目标是让输出和输入尽可能接近。如果把下图中的Hidden 2直接拿来做输出,也就是类似于Transformer中的Embedding结构了。
图片来源:B站Up主技术喵视频
iii. Attention
图片来源:Andrej Karpathy's lecture in Stanford University
Wikipedia上对于Transformer的词条介绍中有这么一幅图,基本上也是Attention技术发展的脉络图,同时也比较好的展示NLP中这些核心技术的发展及演进关系:
下图是技术喵在B站的视频的截图,这张图体现了类似的发展脉络(相关的技术的最早出现都远早于图中提到的论文的发表时间),前四项可以看成是Attention的不断丰富和完善的发展脉络,从Encoder-Decoder的架构、权重对齐、到视觉和多层结构中的Attention应用,基本的框架还是在RNN的基础上加Attention。而Transformer出现后,则是直接替代了RNN开始了NLP领域的大一统架构。
图片来源:技术喵B站视频
所以我们能看到,每一个技术的背后,都有前面许多技术的不断演进、迭代和组合。回到Attention本身来看,一个通用的Attention包括三个基本的部分,即Query、Key、Value。Query(查询)是发起需求,也就是我们要模型或网络做的事情。Key是特征值,而Value是一个对象的本征值,Key和Value的关系可以看成是一个对象的两种表达方式。Attention的运作可以简单地理解为通过看Query和Key之间的相关性(比如通过这两个向量的点乘或者是其他的关系式),然后来决定各个Value(或者是各个对象)对于输出结果的影响权重。由于这些向量的运算都是并行并且全局运行的,所以输出的结果也就考虑到了全局的相关性。
图片来源:论文《Neural Machine Translation By Jointly Learning To Align And Translate》
如果这其中的Query不是来自于外部目标,而是来自于网络中每一个的输入本身,这种Attention就是Self-Attention,也就是更关注的是输入数据本身的自相关性。具体的处理方式就是增加一个输入->Query编码的渠道(多一个矩阵),然后其他的和Attention是一样的。
图片来源:李宏毅公开课课件
如果我们把Embedding和Attention结合起来看,也可以把Embedding看出是Attention的一部分,经过了Embedding后,相当于是把输入的信息都映射到一个向量空间里,从而也更好地来计算彼此之间的相关性。并且Embedding有点类似于PCA(Principal Component Analysis,主成分分析),其处理完的数据集的分布本身也体现出了相互之间一定的自相关性。
c. Transformer的意义
Transformer比较重大的意义,我个人觉得是确立了Attention和Self-Attention这种其实也很符合人类的认知和学习模式的结构的核心地位,从而使得机器学习和人工智能进入了一个全新的发展期,大统一模型(或者至少阶段性的大统一模型)的出现成为了可能,在NLP领域已经比较明显,而在CV领域也挑起了星星之火,大有燎原之势。
三、BEV、Occupancy Networks & Vision Transformer
a.BEV
BEV全称是Bird Eyes View,也就是鸟瞰图。常玩游戏的人应该对鸟瞰图都比较熟悉,它给玩家一种上帝视角的感觉,能够更好地掌控全局。特斯拉是最早将BEV加Transformer上车的公司(特斯拉在其2020年AI day上发布了感知网络HydraNet),同时特斯拉也是比较坚定地走纯视觉路线的主机厂。
图片来源:论文《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》
得到了深度分布特征和图像特征后,将它们做外积,就会得到一个视锥特征。这个就论文标题中的“Lift”。将视锥投影到BEV平面。对其中的像素做处理:像素结合高度信息成为体素(voxel),具有无限高度信息的体素称为pillar,围绕着pillar做Sum Pooling(求和池化),就得到了有长宽高信息的BEV特征,这个过程就是“Splat”。有了BEV特征以后,就可以来做很多的任务了,这就是“Shoot”。
图片来源:论文《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》
LSS可以得到比较稠密的BEV特征,但由于要对每一个像素都做深度估计,计算量大。这种自底向上的BEV建模思路也不断在发展,包括BEVDET、BEVerse等都是基于LSS的思路做了更多的探索和延申。
图片来源:论文《End-to-End Object Detection with Transformers》
DETR也移除了很多传统视觉检测中必要的模块,如Anchors和NMS(Non-Maximum Suppression,非极大值抑制),在Loss计算上选择了用匈牙利算法来计算,真正做到“End to End”,提高了检测效率。由于DETR主要是针对2D的检测,加上也存在一些待改善的地方,以此为基础,Deformable DETR、DETR3D、PETR、PETRv2等演变和改良方法不断涌现,其中从2D->3D是最重要的演变之一。《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》这篇论文中也对比了比较典型的几种处理方式。
还有一种模型是自顶向下的稠密BEV特征建模。比较典型的就是BEVFormer,它是基于DETR3D发展而来,其基础框架如下所示:
图片来源:论文《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》
相比于DETR3D,BEVFormer在参考点和采样点的选择上明显不同:因为它是稠密的,所以不需要额外去预测一些备选参考点,而是直接将得到固定的参考点坐标投影到2D视图中,得到参考点。其采样点通过BEV queries去预测的,每个BEV query预测N*Z*K个采样点。DETR3D没有引入采样点,而是直接从object queries预测N个参考点,再做多视图投影,并与多视图的2D参考点处的特征做交互。
图片来源:论文《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》
除了纯视觉的方案外,目前在自动驾驶领域应用更多的还是多传感器融合的方案,激光雷达和摄像头是其中重要的两类传感器,它们的特征融合也是产学界热衷于探索和研究的方向。在BEV空间中进行多传感器投影的特征信息进行融合是比较有效的。这其中BEVFusion就是比较典型的多模态特征融合模型:激光雷达和摄像头各自进行特征编码后,前者的特征直接沿着z轴展开就是BEV特征,后者用LSS的模型来得到BEV特征,然后将得到的两种BEV特征进行拼接再输入BEV encoder进行编码,就得到了BEV特征。
图片来源:知乎-苹果姐
b. Occupancy Networks
特斯拉在2022年的CVPR上发布了他们自动驾驶的全新算法Occupancy Networks (占用网络),对之前的HydraNet做了进一步的升级。在发布会上,特斯拉自动驾驶新负责人Ashok Elluswamy也介绍了这种新算法能够解决很多“经典”算法中会遇到的诸如地平线深度不一致、有遮挡物、遇到数据集之外的问题而带来的困难。相比较于HydraNet当时提出的3个特征:BEV、固定矩形和物体检测,占用网络确实做了全面的升级:
-
BEV变成了体积BEV(Volumetric BEV),从2D的鸟瞰图升级成3D。
图片来源:特斯拉发布会图片,网络
-
用占用检测替代了固定矩形,通过更高的分辨率(微小的cubes or voxels)来更精确的表征出物体的实际状态。
图片来源:特斯拉发布会图片,网络
-
用体素分类(Voxels Classification)替代了物体检测,通过对体素是否被占用的检测更好地实现对物体和环境的检测,即便是出现了一些之前的训练集中没有遇到过的物体,也能通过对体素是否占用的识别而为正确的执行提供依据。
图片来源:特斯拉发布会图片,网络
占用网路让纯视觉路线也能实现类似于带激光雷达的视觉系统所形成的点云图那边的效果,并且更加稠密。
图片来源:论文《Occupancy networks:learning 3D reconstruction in function space》
NeRF是来自于这篇文章《Representing Scenes as Neural Radiance Fields for View Synthesis》,最初的出现是为了做新视角合成的研究工作,本质思路就是基于体渲染的理论,使用MLP(Multilayer perceptron)去学习静态场景的隐式3维模型。由于NeRF技术的效果出色,所以自2020年提出后,学术界和产业界已经基于它拓展了很多的应用,非常火热。
图片来源:论文《Representing Scenes as Neural Radiance Fields for View Synthesis》
使用的算法是fully-connected的深度神经网络而不是卷积,主要思路是用MLP来学习该场景的隐式3D模型表达,其输入是单个连续 5D 坐标(空间位置 (x, y, z) 和观察方向 (θ, φ)),其输出是该空间位置处的体积密度和与视图相关的发射辐射率,然后通过沿着相机光线查询 5D 坐标来合成视图,并使用经典的体渲染技术将输出颜色和密度投影到图像中。
d. ViT.
让我们来看看Transformer怎么在图像和视觉领域中应用。
图片来源:《AI 3.0》,微信读书
因此在上世纪80年代杨立昆提出CNN的时候,他知道重要的不是复杂的特征,而是层的深度,重点是要多层。CNN的输入是一幅图像(图像每个像素的颜色和亮度一一对应的一个数值组)。最终输出是网络对于每种类别(比如狗或猫)的置信度(0~100%)。
图片来源:李宏毅公开课课件
把Transformer用在视觉领域就是ViT(Vision Transformer)。自Transformer面世以后,将其运用到视觉和图像领域上一直也是热点方向,2020年发布的DETR、iGPT、ViT、IPT、SETR、CLIP IPT、SETR 以及2021年以来如DeiT、PVT、TNT、Swin、CSwin等这些重要的ViT都是基于Transformer。ViT一般的结构如下图所示,包括对图像的前期处理(Split(分割成块),Flatten(压平),Embedding(嵌入。包括位置的嵌入))、Transformer的编码器(包括Multi-Head Self Attention Layer(多头注意力层)、Multi-Layer Perceptrons Layer(多层感知器)和Layer Norm(LN))、预训练(Pre-train)和微调(Fine-tune)。
图片来源:论文《Vision Transformer ViT Architecture》
实际应用的过程中,往往会把CNN的前端和Transformer结合起来,用更小窗口的卷积来增加稳定性和提高精度,也将基本像素转换为特征图,然后用分词器将特征图转换成一系列的分词,再输入到Transformer中。和CNN相比,Transformer严重依赖于大量的数据进行大规模训练,所以数据的数量和质量显著影响ViT的范化应用和鲁棒性。
让我们把上述的几个模块综合起来,来看看特斯拉所发布的HydraNet和Occupancy Networks。
图片来源:网络
计算机视觉任务中,一般物体检测都遵循通用的一个结构:Input->Backbone->Neck->Head->Output:
-
Backbone是特征提取网络,用于识别图像中的多个对象以及提取这些对象的特征信息。对比Transformer的结构来理解,其实Backbone也类似于一种Embedding。比较常用的Backbone网络如AlexNet、ResNet和VGGNet。在HydraNet中,Tesla用的是《Designing Network Design Spaces》这篇论文中提出的正则网络架构RegNet,它可以对输入的图像进行多尺度和多分辨率的特征提取。
-
Neck部分往往是用来提取一些更精细的信息,比较常用的是FPN、BiFPN等。
-
Head就是根据不同的任务来对特征图进行不同的处理。
在HydraNet中,它将车身的8个相机所拍摄到的图像信息输入到Backbone(RegNet)中,经过处理后,将这个8个图像进行多机位融合和时间融合。这里就是我们前面所说的为汽车建立起BEV感知的部分了。
图片来源:特斯拉AI Day发布会,网络
完成了BEV感知部分后,就到了输出的部分,将输出分成多个Head,来提供和满足不同的应用需求,也方便各自做一些fine tuning的工作。综合的HydraNet架构如下图所示:
图片来源:特斯拉AI Day发布会,网络
Occupancy Networks的总体框架和HydraNet差不多,更多是在HydraNet的基础上对其不足进行改进和完善——如上面介绍Occupancy Network时所提到的那些。
图片来源:特斯拉AI Day发布会,网络
Occupancy Network能够更好地解决Corner Case的问题,即便是在面对没有见过的物体,也能够通过对是否占用的判断来进行规避。
f. CV领域的ChatGPT时刻:
相比较于Transformer在NLP领域的一统江山,在CV领域尽管Transformer已经初露峥嵘,但离大一统依然还远,还有很多的工作要向前探索。
四、AI和自动驾驶产业发展的逻辑和拐点
讲完了Transformer和它在CV特别是车载视觉中应用,我们接下来也探讨下AI技术和产业的发展。随着大模型的蓬勃发展,很多模型的能力“涌现”开始爆发,并且正在对很多的领域和产业进行变革。现在很难说这种变革会到什么程度,但直觉上来说,我觉得可能会比以往的变革都更加彻底,更加深刻。
-
整个新皮质结构是一个记忆系统,它根本就不是一台计算机(或者说现在架构下定义的“计算机”)。
-
新皮质唯一知道的是进入输入轴突的模式流。
-
你理解世界的方式是在不断变化的输入流中找到不变的结构。
-
新皮质将不变的表征和当前的输入结合起来进行详细预测。
看完你的感觉是啥?反正我是被震惊了,现在AI的发展基本上就是按照这样的方向在走。当然考虑到霍金斯在人工智能圈的影响力,我觉得是否本身大家就是按照他的思路指引来探路?
图片来源:论文《Emergent Abilities of Large Language Models》
也因此,可能也可以解释,为什么Transformer,加上巨大数据和训练量,实现了“涌现”。从而推动了大模型时代的到来和蓬勃发展,也拉开了AI产业进入到一个新的阶段。如第一部分对Transformer的说明时我提到,Transformer出现比较大的一个意义,就是确立了Attention和Self-Attention这种其实也很符合人类的认知和学习模式的结构的核心地位。如果说人工智能回到神经网络的大道上,就是回归了以新皮质为基础的模拟大脑之路;神经网络本身的训练和参数选择优化,就是对知识的沉淀和对记忆系统的构建——核心就是对于信息特征的提取和优化;那么Attention和Self-Attention所带来的全局特征关联,就是让神经网络和新皮质的记忆系统一样能够更快更好地来实现预测——霍金斯认为,智能的基础是预测,而不是行为。在大模型的情况下,特征提取(特别是不变特征的发现)以及全局的关联效果会大幅优化,从而大幅提升能力。
另一方面,就是随着特征提取的逐步完善和确定(类似于新皮质中“不变的特征”),输入数据的质和量就是持续提高模型能力的关键了,巨量有效的数据才有可能产生能力的“涌现”。
图片来源:Hyung Won Chung's Lecture in NYU
Andrej Karpathy之前从Open AI离开加入特斯拉负责自动驾驶后,曾在各种行业会议等场合,描绘出了特斯拉的智能驾驶要素:大模型、大数据、大计算中心。这其实也是特斯拉整个FSD系统构建的基石框架,如特斯拉在其2022年的AI Day上介绍其FSD所展示的结构一样(见下图),除了核心的神经网络(包括Occupancy和物体识别)外,训练设施(大计算中心,Dojo,2022年AI Day时已经是部署了14000个GPU了)、训练数据(大数据,包括自动标注,模拟仿真和数据工程)和AI编译和推理(使特斯拉能够部署更高级的调度代码,面向整个FSD平台来做调度)也是极其重要的组成部分,它们一起支撑了神经网络在特斯拉汽车上的运行,而神经网络的运行又生成了汽车所面对的周围世界的向量空间。然后基于这样基础上来做规划和执行(Planning,这几块有机会都可以展开成文),使得汽车能够避免碰撞顺利行驶。因此对于整个的FSD系统而言,如果没有这些基础板块的支撑,其神经网络和规划执行是很难有效的。
图片来源:特斯拉AI Day发布会,网络
以Training Data的部分为例,按照图中显示的三块内容,也是和以数据为中心的AI(Data-centric AI)的目标比较吻合的。相比较于传统的以模型为中心(Model-centric)的方式,以数据为中心的方式更加侧重于提高数据的质和量,数据决定了模型能力的上限。下图(图片来源:《Data-centric AI: Perspectives and Challenges》)展示了两种AI方式的对比,可以看到以数据为中心的AI模式的研究自2021年开始就大幅飙升。
图片来源:论文《Data-centric AI: Perspectives and Challenges》
从OpenAI对于其GPT模型的论文描述来看,他们花了特别多功夫在提升数据的质量和数量上,因此也可以说,海量优质的标注数据,是Open AI的最核心资产。
五、智能化由此给汽车产业带来了哪些变化
本文的最后一部分,我们想来简单探讨下智能汽车,或者说汽车的智能化,将给汽车产业带来什么样的变化。当然智能化给汽车产业带来的变革是全方位的,这里更多是从一个产业投资的角度,用更粗的颗粒度管中窥豹了。
a. ASP的提升
首先最直观也是最直接的,是终端ASP提升拉动了整个产业价值的巨大增长。
即便是现在整体手机产业的总量增长停滞甚至下滑,更高价值的智能手机的占比一直持续提升,从我们国内的智能手机产业的相关数据也能看到这样的趋势。
图片来源:Counterpoint Market Monitor
当然这个过程中也会直接带来产业链的价值重塑和技术升级。智能化所需要的支撑链条,最直接的软件、芯片、传感器、显示等(相比于智能手机的计算机属性,智能汽车更多的是机器人属性,因此除了“计算机”属性的支撑链条外,智能的执行部件也是重点),在智能时代都会迎来巨大的规模增长和爆发。汽车的智能化也一定会带来这样的变化。
b. 软件价值比例提升
另外一大块就是软件了,软件的价值比例,往往也是终端智能的一个重要指标。在这个系列的第一篇【滴水研究】智能时代纪事(一)中,我说计算机出现的一个重大意义就是让软件成为了工具的核心,人们花在软件上的时间,要远多于在硬件上的时间,除非这个硬件就是软件的载体。
因此对于汽车而言,能否成为一个智能终端是非常关键的,从出行的意义而言,它的重要性已经毋庸置疑,因此汽车产业过往一直就是人类社会最大的几个产业之一。但如果跻身智能终端,它整体的产业价值,以及在整个社会产业的地位和影响力,在之前已经不低的基础上,都会有巨大的提升。很多的主机厂一直都在寻找汽车未来的定位,软件化和智能化是定位变化的关键。
汽车软件价值量和占比持续提升肯定是一个明确的趋势,罗兰贝格之前对主机厂、Tier 1、软件供应商等做了大量的调研,他们认为单车软件价值将从2022年的8000-16000元的区间增长到16000-32000元区间,软件占BOM比将从4-9%提升到8-12%。不同类型的主机厂的单车软件价值和占比如下图所示:
图片来源:罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》
而从不同功能域的占比来看,智驾和座舱的软件的价值占比也是持续提高的趋势(目前占比已经是比较大了)——总体绝对价值量都是持续提升,不过智驾和座舱的软件部分增速将显著更高。
图片来源:罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》
从层级软件的比例来看,则基本保持稳定,应用层占比稳定在50%以上,应用层直接和用户相关,关乎用户体验,本身也是不同车企竞争的焦点。
图片来源:罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》
对于行业头部公司而言,软件业务比例提升是不断强化生态和增强用户黏性的关键,过去互联网和移动互联网的发展也展示了数据和用户能够创造出天量的价值,催生出巨无霸的公司——这些公司真正的产品其实是其用户,例如你和我,而他们真正的客户则是那些获取我们在使用这些免费服务时的注意力和信息的广告商。
图片来源:MacroMicro.me
而从毛利率和毛利贡献的情况来看,过往六年(2017-2022)服务业务的毛利率一直是持续提升的趋势,并且显著高于其产品毛利率,同时随着服务业务收入体量和占比的提升,其毛利贡献占比也愈发显著,从而拉高苹果整体的毛利率水平。
图片来源:Apple 2022 & 2019 10-K
特斯拉在2022年财报中披露了自2016年以来约有 40 万客户购买并支付了 FSD,这些订购也构成了特斯拉资产负债表中的较高的递延收益(23年Q3报中余额超过30亿美金)中的很大一部分,并且随着其FSD的推广开始逐步确认收入:2021年确认了3.12亿美金,2022年确认了4.72亿美金,而在2023年预计将确认6.39亿美金。特斯拉没有披露毛利的数据,但不少分析师认为这部分毛利很高,甚至接近100%。尽管目前FSD的占比还不高,但Deepwater Asset Management 分析师吉恩·蒙斯特 (Gene Munster) 长期看好特斯拉,他认为 FSD 将在五年内为特斯拉产生高达200亿美元的年收入——这个预测可能过于夸张,但也体现了智驾软件业务的特性:具备指数级爆发的潜在能力。可以预期的是,这部分业务比较快速的增长,同时也在利润贡献中的占比也将持续走高。
c.从投资和生意模式看汽车产业的变化
让我们从投资和生意模式的角度来观察下汽车产业链的变化。从投资的角度来看,对产业发展的判断有两个很重要的要素:成长和周期,这两者往往是并行前进的。判断究竟是它们中的哪一个在主导是关键。周期主导的阶段的核心是存量,主要是通过关注产业中各个环节的水位变换、结构的替代等来寻找周期中的成长逻辑。而成长主导的阶段的核心是增量,主要就是在需求和供给不断地螺旋相互刺激过程中创造出大量的发展机遇,当然过程中也要关注成长中的周期状态更好地进行布局。周期主导和成长主导的关键因素是技术的不断发展成熟,而大的投资和财富积累机会往往都是在成长主导的产业中诞生。
图片来源:滴水石开
这其中护城河最高的生意模式肯定就是图中右上角的“瘾”了,具备大规模高收入的同时可以做到高利润和高盈利能力,用“瘾”来表示也蛮贴切,这种模式下,往往其给用户的价值增加值很多不是物质上的,而是精神和感受上的,既包括人体和人性中固有的“瘾”,也有“独一无二”而不得不依赖的“瘾”,还有依托于强大的生态体系网络而形成的极高迁移成本的“瘾”,除此以外可能还有很多的形态,总之它会让其上下游都产生依赖性而不断强化并不断扩大,并且其扩张的路径边际成本很低或者是不断下降从而也不断强化其盈利能力,然后在正马太效应中不断循环。茅王如此,互联网中的超级App如此,操作系统如此,顶尖的奢侈品、智能终端、半导体公司也是如此。但能够享受这种模式的公司是少数的,一将功成万骨枯,成王路上多屠戮。
六、后记
最近看了Yann Lecun主题为《From Machine Learning to Autonomous Intelligence》的演讲(这个主题他在多个场合都演讲过),这个演讲其实是好几个主题的合集。在这个演讲中,他说明了为什么他不担心AI(至少是目前的AI水平)对人类形成威胁——他觉得目前还是目标驱动的AI系统,会学习,会推理,会规划,但都是在安全可控的范围内,且目前AI的智能水平远远不及人类的智能,如果按照丹尼尔卡尼曼对大脑的“系统一”和“系统二”的分法,现在的AI能够比较好完成“系统一”的任务,但做不了“系统二”的任务,它们不知道这个世界是怎么运行的。
-
书籍:
-
《新机器智能》
-
《千脑智能》
-
《AI 3.0》
-
-
论文(在arxiv上都能找到):
-
《Attention Is All You Need》
-
《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》
-
《Neural Machine Translation By Jointly Learning To Align And Translate》
-
《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》
-
《End-to-End Object Detection with Transformers》
-
《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》
-
《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》
-
《Occupancy networks:learning 3D reconstruction in function space》
-
《Representing Scenes as Neural Radiance Fields for View Synthesis》
-
《Vision Transformer ViT Architecture》
-
《Emergent Abilities of Large Language Models》
-
《Data-centric AI: Perspectives and Challenges》
-
-
视频:
-
李宏毅公开课
-
B站Up主技术喵视频
-
特斯拉AI Day
-
-
报告:
-
罗兰贝格《智能汽车软件白皮书——单车价值翻倍,软件集成服务或成主流》
-
Yann Lecun《From Machine Learning to Autonomous Intelligence》
-
-
网络文章链接:
-
深度学习中的注意力机制-CSDN博客
-
easyaitech.medium.com
-
万字长文盘点时序融合在BEV感知中的应用(上)
-
自动驾驶感知新范式——BEV感知经典论文总结和对比(上)
-
特斯拉Occupancy Network正确解读(NeRF监督的使用)
-
A Look at Tesla's Occupancy Networks
-
Occupancy Networks:基于学习函数空间的三维重建表示方法
-
Neural Radiance Fields (NeRF)系列
-
Robot Challenge Screen
-
Tesla's HydraNet - How Tesla's Autopilot Works
-
为何 CV 里没有出现类似 NLP 大模型的涌现现象? - 知乎
-
蹲一个CV的ChatGPT时刻
-
https://36kr.com/p/2210477751595657
-
GPT模型成功的背后用到了哪些以数据为中心的人工智能(Data-centric AI)技术?
-
Strategy Analytics:2021年全球智能手机批发ASP突破300美元大关 收益将在2027年之前继续增长
-
- End -