十问“坤元”大模型

十问“坤元”大模型


  • 文章来源:中国科学报
  • 文章发布时间:2024年09月20日

  

  ■本报记者 冯丽妃

  9月19日,全球首个多模态地理科学大模型“坤元”(Sigma Geography)在京发布。多位同行评审专家用“惊艳”“专业”等词来描述这款大模型。

  “坤元”由中国科学院地理科学与资源研究所(以下简称地理资源所)联合中国科学院青藏高原研究所、中国科学院自动化研究所等单位研发,旨在拓宽普通大众的地理视野,解放地理从业者的双手,赋能地理科学研究,加速重大地理科学发现。

  “地理科学是一门古老的科学,涉及自然、人文、社会、经济各个学科体系。中国有句古话‘上知天文,下知地理’,我们希望借助‘坤元’大模型,把中国地理科学事业发展推向一个新的高峰,同时为引领世界地理科学发展提供重要科学引擎。”“坤元”大模型科学顾问、中国科学院院士、地理资源所研究员周成虎说。

  “坤元”究竟有哪些惊艳之处?它如何能成为地理科学研究的重要引擎?普通大众什么时候能用上它?《中国科学报》就此采访了相关科学家。

  就像一个巨型图书馆的管理员

  一问:为何被命名为“坤元”?

  “坤元”首席科学家、地理资源所研究员苏奋振:“坤”指大地,“元”指起始,也指神经元;两个字在一起就代表地理智能大模型。

  二问:为什么要打造“坤元”?

  苏奋振:“坤元”是中国科学院基础与交叉前沿科研先导专项“数据-模型驱动地理智能系统与典型场景应用研究”(以下简称地理智能专项)的代表性成果之一。地理智能专项旨在革新地理信息研究的范式,推动地理信息系统升级到地理智能系统。大模型驱动地理知识推理是其中的重要组成部分。

  三问:“坤元”有哪些特点和功能?

  苏奋振:“坤元”具备“懂地理”“精配图”“知人心”“智生图”四大特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能。

  四问:“坤元”是如何实现上述功能的?

  苏奋振:“坤元”就像一个巨型地理科学图书馆的管理员,不仅管理图书的入册,还能阅读大量相关图书资料。目前它已学习了300万篇地理科学领域的科技文献、98部经典教材、88部经典著作、34部标准规范、1万张专题地图、1万篇卓越期刊论文、10万份专业图表和5万条专业问答。

  “坤元”建立了涵盖4大类、16小类的地理全学科语料库,提供320亿词元供大模型自监督学习,并制作了4万余条高质量地理学指令进行模型微调。相比通用语言大模型,“坤元”更熟悉地理学的语言模式、专业术语和领域知识,在地理学基准测试集的准确率方面提升了31.3%。

  将给地理学的科研范式带来变革

  五问:目前“坤元”做了哪些工作?

  苏奋振:“坤元”已经支撑在《自然》子刊、《创新》(The Innovation)、《地球未来》(Earths Future)等高水平学术期刊发表论文10余篇。

  六问:“坤元”在已发表的学术论文中发挥了哪些核心作用?

  苏奋振:首先是文献调研,如果要做一项创新性研究,需要很多前沿研究支持,以前检索一段时间内的文献经常会存在漏网之鱼,这个过程也非常辛苦,而“坤元”有助于解决这些问题。其次是论文撰写,它可以根据我们给出的论文框架、数据、图表等辅助论文的撰写。“坤元”拥有相当于成千上万名博士的庞大知识储量,它意味着在发表论文时,一个人的工作会得到成千上万名博士的帮助。

  七问:地理大模型生成的信息是否绝对可靠?它能取代科学家的工作吗?

  苏奋振:对于地理科学来说,人类改造地球需要利用工具,改造的好坏关键在于使用的人。大模型采集的数据、最终形成的分析到底是对还是错,最终还需要人来判断。

  在做研究的时候,一定是研究者提出新的问题。比如过去二三十年全球河流流出的淡水是进入大海,还是退向陆地?这个问题是人提出来的,机器不会提出这些问题,但提出问题之后可以让它去查文献帮助回答。

  八问:“坤元”将如何影响地理科学研究?

  周成虎:今天,以生成式人工智能为核心的人工智能体系正在重塑我们的社会,无论是作为人类的助手、大脑,还是替代物,人工智能已经成为不可或缺的重器。大模型体系更是用一个“压缩机”将全世界的知识变成一个庞大的知识库,对于学科体系广泛的地理科学研究来说不可或缺,它可以把不同时期、地点的知识统一在一个时空框架下,为解决全球变化、可持续发展问题提供新的科技手段。

  苏奋振:不管是从技术上,还是从研究机制上,大模型都有助于知识生产。它将给地理学的科研范式带来变革,把原来各个研究组、各个课题或各个区域的作坊式研究转变成大协作的平台科研模式。

  向地理科学智能化迈出重要一步

  九问:普通大众什么时候能用上“坤元”?

  苏奋振:我们的大模型建设将分“三步走”:第一步的重点是基础知识的综合和延伸;第二步的重点是推进地图大模型及地理推理机研发,让地理科学语言大模型读懂地图;最后一步是打造具有知识分析能力和推理能力的智慧型工具,创建地理科研协作大平台,让每个人、每个团队都能拥有专属的地理大模型,通过共享数据、模型、研究思路等方式,与古今中外的数百万科学家协同工作。

  十问:同行如何评价这款大模型?

  中国测绘科学研究院副院长刘纪平:“坤元”的研发标志着我们向地理科学智能化迈出了重要的一步,具有广泛的应用潜力和深远的学术价值。“坤元”体现了我国地理信息领域的前沿创新能力,这一成果的广泛应用,将极大推动测绘行业的进步,为提升我国地理科学的全球竞争力作出重要贡献。

  北京大学教授刘瑜:这是一项非常惊艳的工作。地理学全谱系高质量语料库的构建是该项目的基础贡献。在全球范围内,针对地理学所有子学科构建如此完整的、高达323亿词元的语料库是前所未有的。“坤元”在地理学术论文发表上已经展现出极大的应用潜力,未来通过地图大模型与地理推理机的研发,有望进一步提升地理信息处理的智能化水平。

  百度公司主任架构师张刚:“坤元”具有多个重要的亮点:专注领域的模型构建,能满足更精细化的需求;多模态技术的应用,可以实现更加智能化的地理数据和图像处理;用户画像与精准响应;可以有效提升不同层次用户的交互体验,保证模型能够理解和适应地理学爱好者、专业学生及科研人员等不同层次的需求。这种能力可以和百度现有的智能推荐系统互补,打造更个性化的地理知识服务。

冀ICP备2021022029号-2
客服
客服