基于无人机航拍的场景重建
胡昊 于世洁 孙婷 唐学伟

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

胡昊 于世洁 孙婷 唐学伟,. 基于无人机航拍的场景重建[J]. 航空航天学报,2025.4. DOI:10.12721/ccn.2025.157035.
摘要: 常见的场景重建技术可以利用激光扫描器扫描得到点云数据来生成三维模型,或者通过结构光投射出的有规律光纹来捕捉光纹的形状,从而重建三维模型。但是需要专业的设备,成本较高,除此之外,环境的干扰对三维重建的结果影响较大。而无人机由于其灵活性、高效性和相对低成本,可以应用于常见的天气和地形。为了实时对某一区域进行三维重建,我们提出了基于无人机航拍数据的三维重建算法。无人机搭载的摄像头可以获得高清的图像,该数据可以用于神经渲染算法,在体渲染的基础上我们通过单视图深度估计作为辅助,提高了位姿估计的准确性。根据航拍数据的特点,本文修改了隐式函数使其更加符合无人机拍摄的角度。为了更加直观得到地形、建筑布局等信息,我们通过三维重建算法得到点云,然后设计了得到点云的正射投影的算法。为了对同一场景的不同时段进行仿真,我们加入了GAN算法,可以有效的实现不同时间段的场景转换。我们将以上功能融合在一起,提出了多模块融合的框架,有效的解决了操作繁杂、原始数据较难获得、交互性弱等问题。最后我们利用无人机航拍数据集、LLFF数据集,以Nerf、Ha-Nerf算法为基准设计实验,验证了三维重建算法的准确性。
关键词: 无人机图像;神经渲染体;三维重建;正射投影;场景仿真
DOI:10.12721/ccn.2025.157035
基金资助:

基于无人机航拍的三维重建是一项蓬勃发展的交叉领域,将计算机视觉、地理信息科学和无人机技术相结合,旨在通过无人机获取的图像或点云数据,实现对真实世界场景的精确三维建模。相关工作涵盖数据采集、特征提取匹配、三维重建方法、性能优化等方面。在数据采集与处理阶段,无人机配备相机或激光扫描仪,通过航拍获取大量图像数据或点云数据。三维重建方法包括立体视觉法、结构光和基于视觉SLAM等。立体视觉法利用不同图像之间的视差信息实现三维重建,而结构光通过激光投影或时间飞行相机获得深度信息。基于视觉SLAM方法则结合视觉里程计和地图构建,实现实时的三维重建。数据的选择是重建精度的关键。通过得到多角度的图像信息和准确的深度信息是可以有效提高重建的质量。目前,这一领域面临诸多挑战与机遇。技术挑战包括数据的采集、大规模数据处理、大范围场景和动态物体的处理。然而,随着GPU加速、深度学习的发展,计算问题得以缓解。此外,该领域的应用也日益广泛,如地图制作与更新、文化遗产保护、环境监测和战场场景再现等。未来,随着无人机、多源数据融合和实时处理技术的发展,基于无人机航拍的三维重建必将用于更加广阔的天地,为各个领域带来更多可能性[1]

利用无人机可以很容易的获得多角度高清图片,这为基于神经渲染的三维重建提供了优质的数据。同时经过实验证明无人机的低空和高空数据均可以渲染重建出高清晰度的三维场景 。基于神经渲染体的三维重建技术可以用于快速、高精度地重建真实环境 。这种重建可以提供场景中物体的几何结构、地形特征、建筑物布局等信息,帮助军事指挥官进行更好的战场分析与规划,支持决策制定和战术部署。通过无人机,可以很容易获取目标地区的高分辨率图像和视频。通过无人机获得的图像、视频不仅可以用于情报收集,帮助分析敌方的军事设施、装备、兵力分布等信息;此外,给予神经渲染体的三维重建技术可以用于还原高度逼真的场景 。

本文研究面临着一些重要的研究挑战。首先,无人机采集的数据量庞大且多样,需要高效的数据存储和处理方法,庞大的数据进行实时传输对于通讯条件要求较高。其次,无人机姿态稳定性和传感器精度对重建精度有着关键影响,需要解决姿态估计和传感器校准的问题。此外,大范围场景的重建、动态物体的处理以及姿态估计等也是难点。对于复杂场景和无人机数据集的特殊性,重建模型的真实感和准确性的平衡也是挑战之一。

本文的研究目标首先是要实现高精度的三维建模,以满足精细度需求,我们在研究无人机的特点后提出了一种基于Nerf的实时三维重建的方法。在保证了其精度要求的同时,实时对无人机下方的场景重建。其次,利用多源数据融合技术,整合不同传感器数据,获得高精度的深度信息,利用深度信息实现图像位姿估计的约束和估计。为了应对航拍数据的特殊性,我们修改了隐式函数,将相机参数和角度作为附加的因子,而不仅仅是将像素点的坐标考虑进去。为了应对大规模数据处理,通过多核GPU分布式处理,实现实时性和高效性。此外为了揭示场景在不同时间段的变化趋势和规律,提供更全面的仿真模拟和信息支持,我们通过GAN算法来模拟场景从白天和黑夜的转换。最后为了提高自动化程度,实现无人机自主规划飞行路线和实时三维重建,我们创造性的提出了多模块分别完成多项功能的框架。随着硬件的不断提升,应对这些挑战的解决方案将进一步推动基于无人机航拍的三维重建领域的发展[2]

1基于神经渲染体的三维重建相关工作

神经渲染模型(Neural Radiance Fields,简称Nerf)在计算机图形学领域引起了广泛关注 。Nerf是一种基于深度学习的渲染方法,能够以前所未有的精度和真实感生成高质量的三维模型。我们还将讨论神经渲染方法在场景重建中的优势和局限性,并探讨其未来发展的方向 。对于现有的三维重建算法,存在着遮挡问题和纹理缺失,在无人机拍摄大型场景中,某些对象可能被其他对象或结构遮挡,这使得现有的算法难以正确地重建完整的场景。其次传统的SFM算法、结构光法和激光扫描算法对于某些区域缺乏明显的纹理或特征,这使得在这些区域的三维重建非常困难,最终会导致不理想的三维重建效果。

现有的三维重建方法,比如立体视觉通过不同视角或位置获得的二维图像来还原三维结构。也有广泛用于无人机航拍、三维地图重建等领域的结构重建(Structure from Motion,简称sfm)算法。通过在不同视角下拍摄同一场景的图像序列,并从图像中提取特征点和相机姿态信息,来估计场景的三维结构和相机运动。也有通过从深度传感器(如激光雷达、结构光等)获取的点云数据来构建三维场景。但是这些常见的三维重建算法中,存在原始数据较难获得,重建后的结果包含少量的语义细节,列如物体边界和结构特征等。在Nerf之前,基于神经渲染的三维重建领域已有一些研究。其中,一些工作使用类似的思想,如使用神经网络建模场景的体素或点云表示。然而,这些方法通常需要大量的视角图像来实现准确的重建。Nerf的突破在于仅需少量视角的输入图像,通过自适应的采样策略和渲染方程,实现高精度的三维重建,并捕获真实的光照效果,为基于神经渲染的三维重建研究开创了新的方向 。

自然资源部发布的《实景三维中国建设总体实施方案(2022-2025年)》指出,实景三维是对一定范围内人类生产、生活和生态空间进行真实、立体、时序化反映和表达的数字空间,是重要的新型基础设施。无人机的图像可能会存在车辆经过或者人员经过的情景,有研究者提出Ha-Nerf算法可以利用严重遮挡的数据产生不同时间段的场景,他们提出了一个外观幻觉模块来处理随时间变化的外观并传输它们 。 此外,还有研究者采用了抗遮挡技术模块学习能够准确分离静态主体的图像相关的 2D 可见性掩模。同时随着城市场景渲染的规模不断增加和精细度要求不断提高,城市级Nerf的场景规模和渲染精细度对实时计算、存储以及系统的硬件配置都提出了更大的挑战 。有学者针对网格端和Nerf端的不同特性,采用了不同的核心算子优化手段,并最终实现了一系列针对城市级Nerf计算特点的高性能算子设计。在运行速度上,有研究人员想到了各种方法加快渲染速度,比如提出了端到端的用于联合相机姿态估计的可微模型和从图像序列合成新颖的视图,通过引入轻量级的网络来对移动设备上进行合成场景和真实世界场景的实时推理[3]

在前人研究基础上,本文在神经辐射场基础上提出了多个创新。第一是通过单视图和多视图深度图来约束Nerf模型求得的位姿和结构。第二就是调整了隐式函数,使其更加符合无人机航拍的数据特点,在不同的俯视角度来进行场景表面和体积重建。

2 架构

本文所提的方法主要是为了适用于无人机航拍下的数据集,同时在公开的数据集上测试取得了理想的结果,下面就相关算法流程和模块架构做了说明。

2.1 模块和架构

为了简化开发和部署,我们提出了一个模块化的方法 。该框架支持模块化方法进行处理无人机数据,将我们的基于Nerf的三维重建算法整合为系统内的模块化组件,同时实时可视化。这个新框架具有较强的交互性,允许直接输入原始数据,然后在训练过程中同时求得位姿 。框架的模块化设计允许将这些想法轻松集成到系统中,同时更加便捷和清晰的重建无人机下方的城市场景。

基于三维重建、正射投影和模拟场景的系统架构包含以下组成部分:

1. 数据采集和处理模块:通过无人机采集物体的原始数据。其中可以是图片和视频,通过预处理对数据进行降噪、去除冗余信息等处理,以便后续数据集建设。

2. 三维重建模块:使用基于Nerf改进后的三维重建算法,将采集到的航拍图像转换为高质量的三维模型,其中包括利用图像的深度信息来约束位姿,通过隐式函数得到每一个像素点的颜色 。

3. 用户交互和可视化模块:为了使用户能够更加直观地了解图像比对结果,通过界面设计和数据可视化技术,呈现三维重建结果。同时受到基于神经辐射场开发的模块化框架(A Modular Framework for Neural Radiance Field Development,简称Nerfstudio)启发,为了提高用户的交互性,设计了便于操作的用户操作界面 ,可以通过鼠标交互来改变视角、模拟不同时刻之间的场景差异等。

4. 不同时刻仿真模块:受到GAN算法的启发,在此基础上设计了基于双判别器的模型,可以有效的完成场景从黑夜到白天的转换以及从白天到黑夜的转换,该模块完成了同一场景在不同时刻逼真的仿真,在不需要多余数据情况下,有效的提供了同一场景更丰富的细节。

5. 正射投影模块:将采集到的无人机多视角数据输入到图像比对模型中,通过对图像的预处理,再利用判别器判断是否满足准确求得正射投影的条件,如果不满足则利用刚刚求得的三维模型来获得点云,再通过点云的上方映射获得正射投影。

以上是一个包含三维重建算法,正射投影算法,黑夜和白天之间转换的系统架构,不同的应用场景和需求可能需要做一些不同的调整和改进。该架构创新性的提供了一种通过无人机航拍数据来模拟真实场景的新思路。

2.2局限性

虽然通过神经渲染的三维重建带来了许多优势,但它也面临一些挑战,比如对大规模数据集和计算资源的需求,以及训练过程比较复杂,需要消耗较多的计算资源 ,如果拍摄的图像出现湖面等其他反射材料的反光,这会间接的导致鬼影的产生 。模型的优化受非线性失真和单目图像深度估计精度的影响,精度可能会因为场景的改变而变化。此外在无人机飞行过程中,需要保证无人机拍摄的质量和角度,同时我们还需要考虑到当地的法律法规。

2.3基于神经渲染体的三维重建算法

鉴于近年来与Nerf相关的三维重建算法越来越受到研究者的欢迎,例如Mip-Nerf360解决了Nerf的局限性问题,实时渲染三维重建方法的实时神经图形基元渲染(Instant neural graphics primitives,简称instant-ngp) ,基于物体的全景环绕三维重建的抗锯齿神经辐射场的多尺度表示(A multiscale representation for anti-aliasing neural radiance fields,简称MipNerf) ,通过游客照对大场景三维重建的幻觉神经辐射场(Hallucinated Neural Radiance Fields in the Wild,简称Ha-Nerf)也相继被提出 。研究者们一直在探索如何更好地更快的三维重建,有一些工作提出了不同的采样策略、可微分渲染器、近似渲染器等,以加速Nerf的渲染速度。他们尝试优化Nerf的训练过程,提高了场景的几何和纹理细节 ,并探索如何在现实场景中应用三维重建,例如虚拟现实、增强现实、机器人探测等 。目前,研究人员正在尝试将Nerf应用于不同的应用场景,并开发出更加高效和实用的Nerf模型[4]

由于无人机拍摄的图像为连续帧,且具有一定的的稳定性。为了限制不同帧之间的相对的位姿和计算几何一致性损失,我们利用单视图深度来完成 。同时为了规范Nerf的几何形状,我们通过不同视点获得的深度图来完成。

3 实验分析

3.1实验数据

实验的目的是验证基于无人机数据改进后的三维模型重建算法的准确性。实验中采用了多个性能指标来评估三维重建的质量,最后通过实验验证了三维重建算法的可靠性和准确性。

 实验中使用了局部光场融合(Local Light Field Fusion,简称LLFF)、Tanks数据集  用于进行三维重建,其中包含多个物体和多场景数据。除此之外,还建设了一个包含多角度无人机图片的数据集,来模拟数据库,其中还和Nerf、Ha-Nerf  做了比较,通过实验验证了三维重建算法的可靠性。所有实验均在配备了Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz和NVIDIA GeForce RTX 2080环境中进行。

3.2评价指标及基准模型

在实验中,我们采用了峰值信噪比(Peak Signal-to-Noise Ratio简称PSNR),结构相似指数(Structural Similarity Index简称SSIM)和学习感知图像块相似度(Learned Perceptual Image Patch Similarity,简称LPIPS)来衡量三维重建的图像质量。

PSNR是最常用的图像质量评价指标之一,用于比较重建图像和原始图像之间的相似性。其计算方法为:首先将原始图像和重建图像之间的像素值作差,得到误差图像;然后计算误差图像的均方误差(MSE);即如式1所示:

1.png                      (1)

其中,MAX为像素值的最大值,通常为255;MSE为均方误差,其计算公式如式2所示。其中,N和M分别为图像的高和宽,I(i,j)和K(i,j)分别表示原始图像和重建图像在(i,j)处的像素值。

                                             2.png                 (2)

PSNR越高,表示重建图像与原始图像之间的相似性越高,图像质量也越好。SSIM在三维重建中是一种比PSNR更为精确的图像质量评价指标,其不仅在训练时的损失函数中用到,也在评价三维重建效果时使用,用于衡量三维重建后的图像和原图像的失真程度。

3.3实验方法

我们的实验目的是验证三维重建算法的准确性。我们使用一台无人机在多个不同角度下进行航拍2000张图片,对采集的无人机图像进行预处理,包括图像去噪、校正,确保图像数据的质量和一致性。后期引入一些干扰因素,如噪声、遮挡、光照变化,测试算法的鲁棒性。观察算法在不同干扰下的表现,评估其稳定性和可靠性。除此之外,为了保证结果的客观性,我们还利用了局部光场融合(Local Light Field Fusion,简称LLFF)、Tanks数据集作为验证。在算法层面,我们采用了原始的Nerf算法作为基准,除此之外,腾讯实验室的Ha-Nerf算法具有较强的抗遮挡效果,也作为我们实验的一个基准算法。

实现方法基于Python以及Pytorch框架,其中的一些代码参考了nope-Nerf和Nerfstudio项目  。我们采用的策略是在多环境下(下雨天,强光,阴天),测试算法的准确性,将得到的PSNR、LPIPS、SSIM指标取其平均值(模型训练代码和数据集已发布在https://github.com/Huhaobangbangbang/Nerf_3d_reconstruction.git)。

3.4实验结果与分析

 基于无人机航拍的数据,我们的算法和原始的Nerf、Ha-Nerf做了直观的比对,如图1所示。第一列是原始的Nerf算法效果图,第二列是Ha-Nerf算法效果示意图,第三列是我们的算法效果示意图,我们可以看到我们的算法在物体的纹理在比较的算法里面最好的。同一个角度不同算法渲染的质量从左到右依次增强,说明我们的基于Nerf的三维重建算法可以很好的用到无人机模拟真实场景的应用当中去。

4.png

图1 Nerf、Ha-Nerf和我们的算法在不同角度下的表现

我们可以直观的看到我们的三维算法效果在清晰度和纹理的表现上有所提升,为了客观的比较这几种算法在航拍场景下的速度和三维重建效果的准确性,结果如表1所示。我们从表中可以看到改进后的算法,相较于原始的Nerf算法,具有更快的渲染速度,同时相比于原始的Nerf算法,在PSNR指标上,提升了8.5%,在LPIPS指标上提升了5.1%,在SSIM性能上也有小幅的提升,从而验证了算法的准确性和可靠性。目前数据集的图片分辨率为(540, 960, 3),如果提升分辨率为(1080, 1920, 3),PSNR会提升至16.72,直观效果提升不大,但是模型训练速度会大幅度降低。(540, 960, 3)是在速度尽可能快的情况下,不影响场景重建的分辨率。

表1:三种算法在无人机数据集上的性能比较

5.png

为了评估基于神经辐射场的三维重建算法泛化性,我们不仅在无人机数据集上测试,同时在LLFF数据集上做了比较。首先为了更加直观的验证改进后的三维重建算法的视觉效果,如图3所示。

6.png

图2 本文算法效果示意图

在无人机数据集下,不同算法的PSNR随着训练轮数的增加而增加,如图3所示,蓝色曲线代表了本文的算法效果,橙色和绿色分别代表了Nerf和Ha-Nerf效果。我们可以清晰的看到,在训练次数200轮之前,PSNR值随着训练轮数的增加快速增加,当训练轮数到达1000轮之后,效果没有那么明显,甚至出现了过拟合的情况。在无人机数据集的训练过程中,PSNR随着训练轮数的增加而增加,然后迭代次数到达20000次以后,该指标会趋于稳定。

7.png

图3 在无人机数据集下不同算法的PSNR随着训练次数变化的示意图

总结

本文提出了基于无人机航拍数据的三维重建算法,以及基于三维重建、正射投影、同一场景的黑夜白天仿真的功能的多模块系统架构,该系统有效的解决了算法流程复杂和交互性弱等问题,实现了无人机航拍数据到场景仿真模拟的端到端功能。在算法层面上,其中三维重建算法相对于最初的Nerf三维重建算法,对无人机航拍数据具有拥有更快的渲染速度,更准确的渲染结果,同时利用单视角深度信息来约束位姿,通过多视角深度信息来进行几何结构的约束。通过不同的三维重建算法在精度、效率、可靠性和用户交互性等方面的进行比较,验证了改进后的算法的准确性和可靠性。相比于传统的三维重建算法,本算法依靠多角度的无人机图像避免了原始数据制约和计算效率较低的局限性,我们还通过隐式函数的创新,使其更加符合无人机航拍数据的特点。除此之外,本文提出了一个分类器,通过数据特点来决定不同正射投影算法的使用。为了更加逼真的对某一场景进行展示,本文加入了基于GAN来对黑夜和白天之间转换的功能。在未来的研究中,可以专注于三个设计目标:模块化、实时可视化和捕获数据到模拟真实环境的端到端可用性。 

参考文献

[1]   张冬梅. 无人机序列影像PMVS三维重建方法研究[D]. 河南:河南理工大学,2020.

[2]   李明阳,陈伟,王珊珊,等. 视觉深度学习的三维重建方法综述[J]. 计算机科学与探索,2023,17(2):279-302.

[3]   宋书学,孙统领,刘文锴,等. 无人机序列影像快速三维重建方法研究[J]. 华北水利水电大学学报,2024,45(1):31-36.

[4]   张冬梅. 无人机序列影像PMVS三维重建方法研究[D]. 河南:河南理工大学,2020.

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。