好奇心Log 发表于 2024-4-7 22:37:13

科学前沿|地球科学中的大数据: 新兴实践与前景


▪ 背景

随着地球和卫星传感器数量的增多与分辨率的提升,以及高分辨率模型的涌现,地球科学领域的数据量呈现出爆炸式增长态势。这种数据丰富的环境不仅推动了地球科学实践的变革,更将其应用范围从传统的发现和应用科学拓展至全新领域。本综述聚焦于大数据在水文学、海洋学和大气科学这三个关键分支中的最新应用,并探讨了大数据与当代科学挑战——如可复制性、可重复性,以及从原始数据到信息产品的转变——之间的紧密联系。数字孪生(Digital twins)可以从历史中学习,洞察当前状态,并提升对未来预测的精准度。传统上,大数据通过五“V”来定义:数量(Volume)、速度(Velocity)、真实性(Veracity)、多样性(Variety)和价值(Value)。这五“V”共同描绘出了一幅数据量大、处理速度快、准确性参差不齐、格式多样且价值巨大的数据全景图。为了全面理解地球这一复杂系统,需要对各种现象进行细致观察,而大数据正是实现这一目标的关键所在。

▪ 进展

地表水作为人类生存不可或缺的资源,其稀缺性因水量和水质问题而日益凸显。地表水系统的复杂性和动态性给数据处理带来了独特挑战。大数据技术的应用能够更精确、更全面地划分地表水区域,深入了解其动态变化,并优化陆地水预算模型的量化精度。在海洋研究领域,将海洋视为一个三维(3D)系统进行深入探究一直是科研人员的追求。尽管卫星技术提供了宏观视角,但海洋深处的奥秘仍难以触及。模型虽然能够模拟完整的三维海洋,但其准确性和可靠性高度依赖于观测数据的输入和验证。新技术的应用,如Argo浮标、海面和水下自主潜水器以及海洋观测站,正实时收集并传输数据,填补了以往数据空白区域的三维视图。随着海洋模型的日益精细化,其覆盖范围更广,同化观测数据的能力也更强。基于大数据的分析为海洋气候相互作用、恶劣天气和风势等气候过程提供了新的见解。例如,改进CMIP6模式在模拟150米深海洋的氧气水平方面表现出更高的准确性,与CMIP5相比,南大洋的误差明显减少。这不仅提升了对深海通风机制的理解,也对露头水团的生物地球化学特性有了更精确的认识。地球系统的数字孪生旨在构建高度精确的地球系统数字表征,以增强对气候变化和极端天气事件影响的认识。数字孪生不仅能够反映环境或气候的现状,还能自动分析环境变化,自主获取新数据,以优化预测和预报的精准度。然而,数字孪生的准确性在很大程度上取决于数据的质量及其所包含的深入分析。

▪ 展望

地球科学根植于基础科学方法,这一点在可预见的未来仍将保持不变。尽管数据的可用性对于确保研究的可复制性和可再现性至关重要,但大数据的数量、种类和真实性也为其应用带来了挑战。因此,一种新型的生产地球信息产品的模式正在逐渐形成。这些产品是对科学数据、发现和研究成果的综合、结构化和有组织的展示,其设计旨在便于科学界内外的人员获取、理解并应用。地球信息产品的核心理念是“将数据转化为信息,将信息转化为洞察力”,其最终目标是实现科学的可操作性和实用性。然而,大数据带来的新见解并非没有代价。除了传统的激励措施,如鼓励研究人员发表论文外,还应需要投入更多时间和精力对数据集进行精心整理。大数据的规模不仅给科学的可复制性和可再现性带来了挑战,也对数据共享和管理提出了更高要求。确保这些数据集符合FAIR/CARE原则的要求是一项长期而艰巨的任务。尽管如此,与这些挑战相比,大数据提供了更深入、更全面地了解地球的机会。随着传感器和建模技术的不断进步,以及计算资源的同步发展,大数据的概念和应用将不断演变和完善。有理由相信,大数据将极大地丰富对地球这一复杂、相互关联和动态系统的理解,并推动开放科学的进一步发展。


大数据的五大原则及其最有可能带来新发现的环境

在过去的十年中,地球和卫星传感器数量与分辨率的提升,以及气候和气象模型精度的增强,共同推动了地球科学数据量的迅猛增长。这些数据为科学家提供了前所未有的尺度和分辨率,从而能够深入探索复杂的地球现象和过程。同时,这也催生了数据分析、可视化和解释的新工具与技术的蓬勃发展。因此,有人将大数据视为科学研究的“第四条腿”,与理论、实验和计算并列。然而,尽管大数据对地球科学产生了深远的影响,其简洁明确的定义却仍然难以界定。

传统上,大数据是通过五“V”来描述的——即数量(Volume)、速度(Velocity)、真实性(Veracity)、多样性(Variety)和价值(Value)。五“V”共同描绘了数据量大、传输速度快、准确性参差不齐、格式多样且价值丰富的数据特征。早在20世纪90年代,大数据这一术语就已出现,用于描述传感器、模型、数据管理和计算资源进步如何使得收集和分析大规模数据集成为可能。随着技术的不断进步以及自然和人类系统数据化的加速,这一术语的内涵也在不断演变。

大数据还可以从三个维度来理解:1)深度数据,即存在大量测量数据的数据;2)广度数据,即为了全面理解一个问题,需要从各种来源或传感器收集数据,并且这些数据可能是在广泛的空间或时间范围内收集的;以及3)无序数据,即数据的格式不一致,如来自社交媒体的数据。这些定义都是相对的,并会随着技术的变化而调整,特别是随着计算能力和机载数据处理能力的增强。

以深度数据为例,从20世纪70年代开始,世界大洋环流实验(WOCE)通过每隔30海里(约55公里)从海面到海底采集的24到36个盐度、温度和溶解氧样本,积累了海量的水文数据*。如今,Argo浮漂通过无人值守的方式,每天从遍布全球的3800个浮漂上收集400或更多的剖面数据†,实现了数据的实时更新和扩充。

* http://woceatlas.tamu.edu/printed/SOA_WOCE.html

† https://argo.ucsd.edu/about/

广度数据则体现在诸如胡安-德富卡海脊区域电缆阵列*等项目上,该项目在广阔的构造板块上部署了由150个传感器组成的阵列,数据传输速度高达每秒240千兆字节,实现了对仪器的实时控制。

* https://interactiveoceans.washington.edu/about/regional-cabled-array/

无序数据则包括各种众包数据(crowdsourced data),如社交媒体上关于天气状况的描述,这些数据虽然格式多样,但为科学研究提供了新的视角和补充信息。

本综述将地球大数据定义为一种从异构来源生成的海量、多样、复杂且持续积累的数据集。这些数据集相对于常见的数据集而言更为庞大,且需要借助先进的计算和分析工具来提取有关地球系统的有意义见解和知识。地球科学作为一个庞大而复杂的领域,涵盖了地球的物理、化学和生物系统及其相互作用。利用大数据推动地球科学的发展具有举足轻重的意义。由于地球系统的广阔性和动态性,需要广泛的数据来全面理解各种现象。例如,要深入了解海平面上升的影响,就必须研究由海洋和陆地变量组成的复杂系统。

鉴于大数据对地球科学的广泛影响,本综述将重点关注水文地理学、海洋学和大气科学这三个分支学科。本文将深入探讨大数据与当代科学挑战之间的关系,包括数据的可复制性和可再现性、从原始数据到信息产品的转变过程,以及数字孪生概念在地球科学研究中的应用和前景。

我们是如何走到这一步的?谁在使用大数据?

新传感器的开发使得能够在更长的时间段内收集到更多的数据,并且能够测量到全新的变量,这些都为日益庞大的地球科学数据集做出了不可或缺的贡献(图1)。漂流浮标和浮筒被广泛部署,先进的通信技术使得浮标能够近乎实时地向海岸发送数据。自主飞行器可以长时间执行收集数据的任务,被标记的动物也能够发回环境和行为数据流。被动声学数据揭示了动物如何利用声音以及人为声音的影响。由于计算技术的进步,如设备扩展、高性能计算和云计算的普及,模型能够在更精细的空间尺度上覆盖更大的区域,并且可以运行更长的时间。公民数据和众包数据逐渐被更多人接受,从而增加了无序数据量,这些数据对于气候变化和其他现象的研究具有极大的价值。众包数据的形式也愈发多样,从个人气象站到测深数据、手表和随身传感器的数据,再到社交媒体上关于天气和海洋现象的帖子,以及卡车上报告天气和路况的传感器,不一而足。新的分析方法,如人工智能(AI)、神经网络和机器学习,正利用这些大数据集研究从预测海底碳储量到地震学等各个领域的问题。


图1 气候模型空间分辨率以及地基和天基传感器数量的增长趋势。

早在2016年,研究人员就认识到了大数据在地球科学研究中的必要性。像IPCC这样的机构正在解决的问题就必须需要大数据。最近,大数据已被广泛用于支持联合国可持续发展目标(SDGs)的研究,特别是与气候行动(SDGs 13)和水下生物(SDGs 14)相关的目标。也有其它综述分别全面回顾了大数据在地球物理学、生物学以及大数据和人工智能交叉领域中的应用。欧洲海洋委员会关于海洋科学大数据的未来科学简报将传感器的持续开发、数据收集、处理和存档的基础设施建设、近实时数据传输以及长期资金保障作为核心建议。

确定谁真正在使用大数据是一项复杂的任务。理想情况下,使用大数据的论文会正式引用数据的DOI(数字对象唯一标识符),这样既能跟踪数据的使用情况,又能将数据集以及负责整理和发布数据集的研究人员与其在传统同行评审出版物中的使用和引用联系起来。另一种提取使用趋势的方法是查看大型资料库和项目档案中数据的使用情况。世界数据中心在国际地球物理年期间真正推动了大数据集的创建和共享。以TOGA/TAO/TRITON浮标阵列为例,自1986年成立以来,已发表了1000多篇引用其数据的论文*。NCAR的研究数据档案馆也为其数据集提供了类似的列表,也记录了引用其数据集的1000多篇文章†。NOAA的开放数据传播计划(Open Data Dissemination Program)则收集了一份引用其数据的论文列表,其中显示有56篇论文使用了其14个最受欢迎的数据集。海洋观测站计划列出了使用其电缆阵列数据的333篇论文‡。虽然NASA档案没有直接列出引用情况,但其物理海洋学分布式主动档案(po.daac)提供了有关其下载量数据。例如,2022年该档案的日均下载量为11TB,且每日新增数据量达到2TB§。

* https://www.pmel.noaa.gov/gtmba/tao-journal-publications

† https://rda.ucar.edu/resources/metrics/‡ https://ooipublications.whoi.edu/biblio

§ https://www.earthdata.nasa.gov/eosdis/system-performance-and-metrics/eosdis-annual-metrics-reports

在大数据的发现、分析和可视化方面,工具的发展迅速,既有商业解决方案,也有开源解决方案。例如,谷歌的GEE(谷歌地球引擎)是一个基于云的地理空间分析平台;微软的Planetary Computer是一个用于地球科学数据分析的专用计算平台;Esri的Living Atlas of the World则是一个集地理空间数据集和应用程序于一体的综合平台。此外,像阿帕奇科学数据分析平台(SDAP*)这样的开源解决方案提供了另一种选择。SDAP是一个协调地球科学数据(包括卫星、模型和原位数据)访问和分析的开源平台,支持海平面上升、重力、海洋科学、野火、空气质量、温室气体、洪水、土地覆盖、地表地形和植被等多个领域的研究。另一个值得一提的项目是Pangeo†,这是一个“大数据地球科学社区平台”,涵盖了软件、文档、基础设施和实践社区等多个方面。该项目致力于推动开放科学,特别强调开源工具的使用,如用于处理多维数据的Xarray和用于分析和可视化海洋学和气象学数据的Iris。这些平台为研究人员提供了获取大量地理空间数据和计算能力的便捷途径。然而,在利用这些平台时,必须对其进行严格审查,充分考虑到其可能存在的局限性,如数据整理不足、数据可用性不稳定、数据质量参差不齐以及潜在的供应商锁定等问题。

* https://sdap.apache.org

† https://pangeo.io/

地表水文

地表水,包括河流、湖泊、水库、溪流和湿地等形式,对人类生存至关重要。然而,由于水量减少和水质下降,地表水正变得越来越稀缺。鉴于地球上水量的巨大以及水文的瞬息万变,地表水为数据采集工作带来了特殊的挑战。流动地表水的宽度差异极大,从几米到几公里不等,其变化范围可在几分钟到几十年的时间尺度内波动。大数据使得地表水的划分更为精确和全面,深化了我们对地表水动态的理解,并为更精准地量化陆地水预算的模型提供了关键信息。要深入了解地表水,首先必须划定其空间范围并生成数字水文图。常用的数字水文地理产品包括MERIT Hydro和 HydroSHEDs,它们分别由90米和30米数字高程模型(DEM)推导而来。然而,尽管这些产品在地表水研究中发挥了重要作用,但它们仍存在着数据缺口和基础数据源不一致的问题。

为改进这一问题,HydroSHED产品正在根据TanDEM-X任务数据生成的改进型DEM进行重新设计。TanDEM-X数据集在赤道的分辨率高达12米,为HydroSHEDS v2提供了坚实的基础。这种增强型全球DEM采用了先进的预处理技术,旨在保留DEM的高分辨率细节。这些技术包括填充无效和不可靠的高程值、通过人工修正完善自动海岸线划定、基于人工智能的水域探测算法,以及修改城市和植被区的高程数据以改进水流评估等。此外,经过水文预处理的DEM和从TanDEM-X数据集生成的水体掩模还需要经过进一步的处理,包括采用“改进的水文优化和校正算法”,以生成水流方向图和水流累积图。这将有助于获得全球一致的高分辨率数字水文地图。

地表水的动态性可能导致严重的洪水灾害,对人类社会造成巨大的经济损失和生命威胁。地表水作为地球自然水文系统的重要组成部分,对家庭、农业和工业用水的可用性产生着深远影响。为了更全面地了解全球水资源供需差异,需要整合多种大型数据集,如土壤地图、降水量、地表水和地下水范围、耕地、人口密度和国内生产总值(GDP)等。在这一方面,国家地理探险家马克-比尔肯斯(Marc Bierkens)做出了杰出的贡献,他建立了全球水资源供需差异模型并绘制了相应的地图*。

* https://worldwatermap.nationalgeographic.org/

三维海洋

将海洋视作一个三维(3D)系统一直是研究人员的追求目标。尽管卫星能提供综合视图,却无法洞察海洋深处。模型能够代表完整的三维海洋,但它们依赖于观测数据作为输入并验证结果。大数据可能是长期活动的成果,例如自1949年以来一直在观测加利福尼亚洋流生态系统的加利福尼亚海洋渔业合作调查(CalCOFI*)。为更深入地了解厄尔尼诺现象及其对气候的影响,自1985年起,热带太平洋开始部署TOGA/TAO浮标阵列。这是早期收集详细而广泛的观测数据并形成大数据的范例。尽管这些数据经过精心格式化和质量控制,但它们在时间和空间上均十分广泛,测量的变量数量也众多。TAO数据已被用于研究热带太平洋的众多现象,例如加深对厄尔尼诺现象及其影响的理解,观察海洋中的热结构,监测热带太平洋风雨的变化,以及对海面温度进行全海盆研究。

* https://calcofi.org/

最近,阿尔戈(Argo)浮标、水面和水下自动潜水器以及海洋观测站计划(OOI)等新技术收集并传输了大量数据(通常是实时数据),为先前数据匮乏的地区提供了三维视图(图2)。这些数据支持了从水的跨大陆架迁移、感知鲸鱼叫声和船舶交通到研究热液喷口的热通量和地震学等各方面的发现。


图2 海洋温度测量数据的增加。(A) 1995年收集的各深度温度观测数据的数量。(B) 2022 年收集的温度观测数据的数量。

海洋模型变得越来越精细,能够覆盖更广阔的区域,并越来越多地包含观测数据同化。模型既是大数据支持的边界条件的产物,包括详细的测深网格以及来自河流和风模式的强迫数据,也是大数据输出的生产者。模型的改进有助于更详细地绘制海洋环流模式图,更深入地了解营养物质的输送,更精确地测量飓风的热输入,以及改进溢油和幼鱼扩散的建模。这些模型为改进飓风预报、海洋保护区选址、溢油响应以及提高对海洋生态系统的认识做出了贡献。随着模型输出规模的不断扩大,人们开始质疑究竟哪些输出应该存档,以及哪些输出可以更有效地重新创建以满足特定需求。

在生物学领域,研究人员利用大量浮游生物图像数据集,能够更好地了解有害藻华(HABs)的生长和范围。在连续浮游生物记录仪的现代版本中,成像流动细胞机器人(IFCB)收集了大量浮游生物图像。利用神经网络技术对这些图像进行分类,从而更深入地了解浮游生物的分布模式和浮游生物种群的健康状况。环境DNA(eDNA)测量能够快速收集大量数据, 有助于了解某一地点存在的物种、未被发现的物种、种群之间的遗传关系以及某一地区或区域的总体生物多样性。

大气建模: 全球气候模型

全球气候模式(GCMs)是地球气候系统的复杂数学模型,其中包含管理大气、海洋、陆地表面和冰层的物理、化学和生物过程。自20世纪60年代初问世以来,全球气候模型在复杂性、分辨率以及纳入其他组分(如陆地表面、海冰和植被)方面均取得了显著进步。耦合模式相互比较项目(CMIP)是在世界气候研究计划(WCRP)的支持下开展的一套广泛使用的协调气候模式实验。该项目的最新迭代版本CMIP6代表了全球为加强对地球气候系统理解而做出的共同努力。地球气候动力学建模的分辨率和复杂性的提高,使得对气候的认识取得了若干进展。

基于大数据的分析提供了对海洋气候相互作用、恶劣天气和风势等气候过程的新见解。海洋生物地球化学通过调节CO2与大气的交换对气候起着至关重要的作用。改进后的CMIP6模型更准确地模拟了150米海洋深度的氧气水平,与CMIP5相比,南大洋的误差明显减小。这改进了对深海通气的描述,并更准确地描述了露头水团(outcropping water masses)的生物地球化学特性。CMIP6模式历史运行水平分辨率的提高,更准确地再现了中纬度风暴轨迹,减少了以往模式中存在的赤道偏差。有研究探讨了未来气候对欧洲风资源的潜在影响,结果表明,在高排放、高人口增长、高能源需求和严重依赖化石燃料的情况下,到本世纪末欧洲大部分地区的风资源将大幅减少。

全球气候模型能够量化和预测地球变暖对移民模式和社会经济稳定的影响。干旱、洪水和极端气温等气候冲击对移民具有影响:(i) 气候导致的移民现象并不局限于贫困家庭;(ii) 与本地或国际移民相比,国内长距离移民更为普遍;(iii) 干旱等缓慢发生的变化比洪水等快速发生的变化更能推动移民数量的增加;(iv) 气候冲击的严重程度以非线性方式影响移民,并受到能力或脆弱性渠道的影响。随着恶劣天气事件的频率和强度不断增加,对农业活动产生的重大经济影响以及对当地和全球粮食安全的威胁也愈发严重。有研究利用ERA5大气再分析模型*(2000年至2018年8月)的气候数据和8.2万份作物产量报告,通过机器学习解释了65%的历史产量异常现象。* https://www.ecmwf.int/en/research/climate-reanalysis

尽管气候变化通常被视为一个渐进和长期的过程,但大量的观测和模拟气候数据表明,气候可能会发生不可逆转的突然变化或临界点。IPCC将临界点定义为“一个系统中的临界阈值,一旦超过该阈值,就会导致系统状态发生重大变化,而这种变化通常是不可逆转的”。有研究指出,除了亚马逊雨林的消失和格陵兰冰盖的融化之外,北方森林火灾频率的潜在变化、北极海冰的减少、珊瑚礁的大规模死亡,以及这些气候临界点可能通过反馈回路相互结合,引发全球性的连锁事件。

可复制性和可再现性

为了提高可信度、增强可推广性并促进科学成果的再利用,地球科学界再次致力于提高地球空间研究的可复制性(Replicability)和可再现性(reproducibility)。当原始数据和计算方法能够产生相同的科学结果时,便实现了可重复性;而使用新数据得出相同的科学结论时,则实现了可复制性。

地球大数据对推动可复制性和可再现性提出了独特的挑战。为此,研究人员提出了一个五星指南,旨在提高地理空间研究的可复制性和可再现性。五星指南的不同级别要求不断提高元数据和数据共享的粒度。

由于地球大数据数量庞大,将研究数据转换为开放科学数据格式并存储起来既耗时又费钱。在认识到这些挑战后,政府数据提供商正积极与商业基础设施即服务(IaaS)提供商合作,记录和托管海量的卫星数据、地球数据、海洋数据以及可用于建模分析的数据。这些庞大的数据集合靠近海量计算机资源,为提高研究的共享性、再现性、可复制性和协作性带来了巨大希望。这些概念是实现开放科学这一宏伟目标的基础——即“向所有人提供研究产品和过程的原则和实践,同时尊重不同文化、维护安全和隐私、促进合作、可复制性和公平性”。

地球信息产品

地球科学深深植根于基础科学方法,尽管数据科学可能会增强这一过程,但在可预见的未来仍将如此。这一过程的主要科学产出形式历来是同行评审出版物。然而,大数据为学术交流提供了更多机会,学术交流是“研究和其他学术著作的创作、质量评估、向学术界传播并保存以供未来使用的系统”。

数据的收集、生成、组织和管理,特别是大数据的收集、生成、组织和管理,越来越被视为科学成果。如今,审查和记录收集方法、数据清理和质量保证的同行评审数据论文或出版物十分常见。尽管数据的可获得性对于可复制性和可再现性至关重要,但大数据的数量、种类和真实性可能会使其使用变得复杂。

因此,一种生产地球信息产品的模式正在形成。这些产品是对科学数据、发现和研究成果的综合、结构化和有组织的展示,其格式便于科学界内外获取、信息丰富且实用。地球信息产品旨在“将数据转化为信息,将信息转化为洞察力”,其最终目标是使科学更具可操作性。地球信息产品可以数据为中心,主要侧重于提供大数据工作流程的分析结果,并已用于分享陆地、海洋和海岸的生态建模结果。此外,地球信息产品还可以更具叙事性,将交互式地图与文本和多媒体内容相结合,通过总结研究背景、工作流程和主要成果来促进科学交流。

数字孪生

数字孪生(Digital twins)是基于大数据的一个快速发展的研究和发现领域。地球系统的数字孪生旨在建立地球系统的高精度数字表征,以提高对气候变化和极端天气事件影响的认识,并可能更好地评估潜在的社会经济和健康影响。

数字孪生概念已在多个商业领域得到验证并取得显著成效。图3展示了地球系统数字孪生的高级表示方法,作为一个综合信息系统,每个组成部分都有助于实现数字孪生的总体目标。NASA高级信息系统技术(AIST)计划的网站*总结了地球数字孪生的主要目标:1)提供系统随时间变化的连续且准确的表示;2)通过高级分析、人工智能和最先进的模型来反映地球科学系统,从而帮助预测地球对各种现象的响应;3)是提供基于情景预测的工具,以建议研究人员和/或决策者可能采取的行动,这可能涉及潜在的气候缓解方案以及获取更多数据和分析。

* https://esto.nasa.gov/aist


图3 地球系统数字孪生要素的高级表示。循环框架表示连接物理和数字表征的数字孪生内信息的持续流动。箭头表示各要素之间的一般信息流:(1) 统一的、分析优化的数据管理解决方案,用于快速访问和分析。(2a) 人工智能在数字孪生中发挥着重要作用,包括识别相关数据、分析和数字模型以及资源管理。人工智能使从过去学习以提高未来预测准确性的过程正规化。基于人工智能的模型需要持续训练和不断验证。(2b) 先进的物理模型对预测环境响应至关重要。与基于人工智能的模式一样,数值模式也需要持续的同化和验证。(3) 地球数字孪生的承诺之一是提供可操作的预测。可采取的行动包括提出缓解建议、进行新的观测和分析。(4) 新的观测可以包括重新分配地球观测仪器的任务、部署无人飞行器、从原位传感器获取数据以及按需生成增值产品等。

数字孪生提出了多学科、多变量数据的挑战,这正好符合大数据的五V特性。人们对地球数字孪生的期望是,它不仅能够反映地球科学系统的现状,还能自动分析环境或气候的变化,并自主获取新数据,以改进预测和预报的准确性。为了充分发挥作用,地球系统的数字孪生必须能够精确反映各子系统之间的相互作用或作用力。数字孪生的准确性在很大程度上取决于所使用数据的质量及其包含的分析的深度。在整个数字孪生架构中,人工智能发挥着至关重要的作用。鉴于观测数据和模型数据的快速增长,数字孪生需要变得更加智能,以决定何时以及包含哪些数据和分析。要实现数字孪生解决方案的可持续性,其架构必须能够应对多种大数据挑战。

多变量分析。几乎所有的地球科学研究都需要利用多种测量数据来探究不同变量之间的相互作用和因果关系。这可能涉及各种类型的遥感数据和现场测量数据。此外,根据分析的类型(即全球或区域分析),可能需要不同分辨率的数据。处理大量数据需要新的数据管理方法,以促进数据的并行计算。

模型同化与数值模式。全球气候模式部分揭示了开发和运行大型数值模式模拟的复杂性。数字孪生需要根据地球系统的最新状态不断更新模型运行,以生成最准确的预报。

先进的人工智能技术。数字孪生需要具备根据用户场景和场景所需的科学知识来识别相关数据、分析和模型结果的能力。从成本和运行优化的角度来看,数字孪生都需要先进的协调支持。

在地球科学领域,有多种受资助的数字孪生系统。由NASA JPL领导的AIST数字地球综合分析系统(IDEAS*)正在设计一个可重复使用的地球系统数字孪生(ESDT)框架,并将洪水†和空气质量‡作为其应用案例。由法国国家空间研究中心(CNES)领导的气候观测空间(SCO)的FloodDAM项目§正在开发一个解决方案,以帮助预测和分析法国的洪水事件。美国国家航空航天局(NASA)基于IDEAS的水文ESDT和SCO的FloodDAM正在合作,旨在为美国和法国地区建立一个联合数字孪生解决方案。欧洲航天局(ESA)的目的地地球(DestinEB‖)项目由三个实体联合开发,即欧洲中期天气预报中心(ECMWF)、欧洲气象卫星应用组织(EUMETSAT)和欧空局。欧洲联盟的伊利亚特海洋数字孪生项目¶是一个特许联合体,致力于开发海洋数字孪生合。

* https://ideas-digitaltwin.jpl.nasa.gov/

† https://ideas-digitaltwin.jpl.nasa.gov/hydrology/

‡ https://ideas-digitaltwin.jpl.nasa.gov/airquality/

§ https://www.spaceclimateobservatory.org/flooddam

‖ https://digital-strategy.ec.europa.eu/en/policies/destination-earth

¶ https://ocean-twin.eu/digital-twins

总结

本综述主要聚焦于地球科学的三大分支——水文地理学、海洋学和气候科学,旨在阐述大数据对这些广泛学科的深远且持续的影响。大数据的涌现推动了对地表水的认知进步,例如:能够更精确地描绘河岸网络、提升洪水预测的准确度,以及全面评估水的供需状况。在海洋学领域,大数据赋予了研究人员更深刻洞察海洋三维特性的能力,进而在诸如跨大陆架水传输到鲸鱼行为研究等多个方面取得了新的发现。同时,全球大气环流模型在空间和时间粒度上的改进也深化了对气候过程和相互作用的理解。

然而,大数据所带来的新见解并非毫无代价。大数据的庞大规模对科学的可复制性、可再现性以及数据共享和管理提出了严峻挑战。确保这些数据集符合FAIR/CARE原则,并弥合数据与信息之间的鸿沟,成为了一项需要持续努力的任务。除了传统的激励措施鼓励研究人员发表论文外,还需要投入更多时间来妥善管理这些宝贵的数据集。

大数据通过提供丰富的环境信息产品和数据工具,为我们更深入、更全面地了解地球带来了希望。然而,面对这些挑战,还需付出更多努力。随着传感器和建模技术的不断进步,以及计算资源的同步发展,大数据的概念将持续演变。尽管如此,大数据在加深我们对地球作为一个复杂、相互关联和动态系统的理解的同时,也展现出在支持开放科学方面的巨大潜力。

论文信息

标题:Big data in Earth science: Emerging practice and promise
期刊:Science
类型:Review
作者:Tiffany C. Vancec【NOAA/US Integrated Ocean Observing System (IOOS)】, Thomas Huang【NASA Jet Propulsion Laboratory】, Kevin A. Butler【Esri】
时间:2024-03-15
DOI:https://doi.org/10.1126/science.adh9607

文章来源于微信公众号:好奇心Log
页: [1]
查看完整版本: 科学前沿|地球科学中的大数据: 新兴实践与前景