中国科学:人地系统建模与决策的通用框架初探—多主体深度强化学习及其在经典“公地悲剧”问题的应用

发布日期:2026-01-21 来源: 字体:[ ]

    人地系统是人类活动与自然过程深度交织的复杂适应系统,随机性、非线性、反馈与涌现等多重现象交相作用,共同驱动着人类行为与自然动态之间的耦合演化。尽管地球系统科学中针对自然系统的模型已相对成熟,但对人类系统的建模仍存在明显短板。更为关键的是,目前尚缺乏能够有效刻画人地系统两者之间复杂交互关系、支持系统性建模和科学决策的通用框架,成为制约人地系统研究深入发展的瓶颈问题。

    针对上述挑战,中国科学院青藏高原研究所三极观测与大数据中心李新研究员等提出了一个集成马尔可夫决策过程、多主体建模和深度强化学习的多主体深度强化学习综合集成框架。该框架以马尔可夫决策过程四元组为基础,包括环境状态(表征自然系统)、主体行动(表征人类系统)、状态转移(表征人地系统演化)和奖励机制。通过引入多主体建模来模拟从个人、群体、社区到政府和非政府组织等多层级主体的行为、决策及其复杂交互过程。运用深度强化学习解决由多主体-环境交互引入的高维状态-动作空间求解难题。为验证框架的有效性和实用性,研究选取经典的“公地悲剧”问题作为原型案例开展实验,对比分析剖析了在不同激励机制下主体适应性决策如何导致、缓解或避免“公地悲剧”的发生机理。该研究为解析人地系统中多过程、多主体及多活动之间的复杂交互机制提供了有力工具,为未来在青藏高原及周边这一关键战略高地开展跨境水资源协调管理、生态补偿机制设计、资源开发与生态保护平衡等涉及多利益相关方博弈问题的决策研究奠定了坚实的基础。

    研究成果以“Generalizing human-natural systems modeling and decision-making: A multi-agent deep reinforcement learning framework and its application to the tragedy of the commons《人地系统建模与决策的通用框架初探:多主体深度强化学习及其在“公地悲剧”中的应用》”为题,发表于《SCIENCE CHINA Earth Sciences》(中英文版)。我所特别研究助理原世伟为论文第一作者,李新研究员为通讯作者。该研究获得国家自然科学基金(42301545、42430112)与中国博士后科学基金(2023M733606)资助。

    论文链接

    《中国科学:地球科学》:https://www.sciengine.com/SSTe/doi/10.1360/N072025-0092

    《SCIENCE CHINA Earth Sciences》:https://www.sciengine.com/SCES/doi/10.1007/s11430-025-1738-8

图1 多主体深度强化学习综合集成框架

该框架基于多主体马尔可夫决策过程构建,多类型主体(政府、机构、人类和生物等)通过协同决策与动态环境交互,系统根据交互结果生成实时奖励信号,驱动深度神经网络持续优化主体策略,形成“环境交互-奖励反馈-策略更新”的自适应学习闭环,使多主体系统通过试错学习渐进提升决策效能。框中所示贝尔曼最优方程为该框架提供了数学理论基础


图2 纯经济导向捕鱼行为下“公地悲剧”的涌现

展示了在以经济收益最大化为唯一目标的情景下,渔民个体理性行为快速导致了集体层面的资源崩溃


图3 行为参数和合作机制对捕鱼行为和资源动态的影响

通过引入行为参数(贪婪因子g)刻画了渔民从保守到激进的多种行为模型,展现了不同行为倾向下的捕鱼策略分化特征。合作机制的引入则在个体行为倾向多样化的情况下有效促进了集体行动的协调性,实现了渔业资源的可持续管理