应Reviews of Geophysics期刊邀请,我所三极观测与大数据团队李新研究员等以“Land Data Assimilation: Harmonizing Theory and Data in Land Surface Process Studies”为题,发表长篇综述文章。论文指出,数据同化是整合理论(模型模拟)和观测数据的有效方法论,在地球大数据时代可进一步与机器学习共生集成,增强对地球系统的理解和预测。
陆面数据同化是调和陆面过程的理论(通常是数值模型)和观测数据的重要方法论,其核心思想是在模型的动力框架内融合不同来源和不同分辨率的直接与间接观测,生成对陆面状态、参数和通量的最优估计,从而增强系统的可预报性和可观测性。近几十年来,陆面数据同化在理论、方法和应用方面都取得了长足的进步,在促进地球系统科学的科学认知和工程应用方面发挥着双重作用:一方面,通过调和已有认知的陆面过程理论和蕴含不确定性的观测数据,陆面数据同化可提升预报精度,促进对地球系统的科学认知;另一方面,陆面数据同化成为陆面过程再分析、模拟和预测的主要工具,并助力数字地球孪生的实现。
该文章系统回顾了近二十年陆面数据同化的发展历史、方法创新与多学科应用研究。目前陆面数据同化理论和方法快速发展,且已具备不同于大气和海洋数据同化的独特学科特征,包括:1)尺度依赖与空间相关的状态/通量及参数具有高度非线性,2)模型观测误差具有非高斯性,3)与初场相比,驱动的重要性更大,4)模型预测对参数具有更高的敏感性。针对这些特征,研究人员在贝叶斯滤波和变分数据同化的基础上衍生出集合变分同化方法,采用更成熟的理论和机器学习等新方法估计模型、驱动、参数和观测的不确定性并控制误差传播,设计状态-参数同步估计的同化算法以增强对复杂人地系统的认知,并针对真实世界的非高斯非线性、时空尺度异质性和空间相关等普遍原则,研制鲁棒、自适应的算法。数据同化已经成功应用于陆面过程关键变量(如土壤水分、积雪、蒸散量、径流、地下水、灌溉和地表温度等)的模拟与预测,特别是在水循环和能量循环的时空演进研究中,发挥了重要作用。国内外一系列全球、区域、流域尺度陆面数据同化系统的建立,以及开源数据同化软件的发布,进一步促进了陆面数据同化的深入研究和应用。
文章还展望了陆面数据同化未来的发展机遇和挑战。他们指出,数据同化应扩大其研究应用范围,从纯粹的地球物理系统扩展到“自然-社会”耦合系统,深化对“人-地”多圈层耦合系统的认知。同时,数据同化还应关注提高驱动数据的质量,研建长时间序列的陆面再分析数据,开发业务化的陆面数据同化系统,推进关键带同化应用。此外,数据同化还面临着一些挑战,如降低观测数据的代表性误差、处理地表过程的强非线性、以及量化由多尺度空间相关性引起的不确定性等。
作者还认为,在地球大数据时代,发展大数据同化的新理论和方法,实现机器学习/深度学习与数据同化的共生集成,通过“知识-数据”双重驱动来提高“人-地”系统的预测能力,助力实现地球系统科学中的人工通用智能(Artificial General Intelligence)和数字孪生,也是陆面数据同化未来发展的重要方向。
中国科学院青藏高原研究所李新研究员为第一作者和通讯作者,中国科学院西北生态环境资源研究院黄春林研究员、刘丰博士、马春锋博士、侯金亮博士、马瀚青博士,中国科学院青藏高原研究所郑东海研究员,西北师范大学摆玉龙教授,西南大学韩旭军教授,德国于利希研究中心Harry Vereecken教授,清华大学阳坤教授,河海大学段青云教授等学者共同参与了该项工作。
该研究获得青藏高原地球系统基础科学中心等项目资助。
文章链接:https://doi.org/10.1029/2022RG000801
图1 陆面数据同化:基础理论、关键要素与技术流程
图2 机器学习/深度学习与数据同化的共生集成概念框架