这是一份围绕《'波兰研究论文'》的提示词模板,整理了角色、背景、目标与约束,便于直接复制使用并快速产出高质量结果。
以下段落是学术论文的一部分。
请修正语法错误并将其润色为母语人士的水平。
全局点云变换器\cite{Guo2021,Yu2022,He2022}只能处理包含几千个点的点云,
因此我们省略与它们的比较,重点关注最近提出的高效点云变换器的比较,包括分层变换器\cite{Lai2022}和点云变换器v2\cite{Wu2022}。
分层变换器将窗口注意力\cite{Liu2021a}扩展到具有立方窗口的点云~\cite{Fan2022,Sun2022},并利用分层采样来提高性能。
点云变换器v2以滑动窗口的方式将注意力应用于每个点的k个最近邻。
由于网络配置差异很大,我们首先记录在Nvidia3090GPU上运行一个\emph{单个}变换器块的时间,以消除不受控制因素的影响,
我们选择输入张量的空间数量从${10k,20k,50k,100k,200k}$中选择,并将通道设置为96。
对于注意力模块,我们将头数设置为6,并为我们的OctFormer和点云变换器v2将点数和邻域数设置为32。
由于分层变换器中每个窗口的点数是变量,我们将窗口大小设置为7,以使平均点数约为32。
结果如图\ref{fig:efficiency}所示。
可以看出,尽管三种方法的计算复杂度都是线性的,但我们的OctFormer比点云变换器v2和分层变换器运行速度显著更快。
当输入张量的空间数量为$200k$时,OctFormer的速度比其他两种方法快17倍以上。
我们的OctFormer之所以高效的关键原因是我们的新型八叉树注意力主要利用了深度学习框架支持的标准运算符,例如PyTorch的多头注意力,它进一步基于GPU上的通用矩阵乘法例程进行了优化,并已针对GPU的计算限制进行了优化\cite{cublas2022}。
然而,分层变换器中每个窗口的点数高度不平衡,即使使用手工编写的GPU编程也很难进行效率调优。
尽管点云变换器v2的邻域数是固定的,但滑动窗口的执行模式浪费了相当多的计算,这些计算本可以共享。
我们还比较了整个网络的效率,如图~\ref{fig:teaser}所示。
我们记录了每个网络在Nvidia3090GPU上进行一次前向传递的时间,使用一个批次的$250k$个点。
我们的Octformer-Small的速度略快于MinkowskiNet,比点云变换器v2快3倍,比分层变换器快20倍。
值得一提的是,我们的OctFormer以1cm的体素大小量化点云作为输入,而其他网络以2cm的体素大小量化点云。
我们将在接下来的实验中分析体素大小的影响。