科学大数据的前沿问题

作者: 2015-05-20 08:58 来源:香山科学会议网
放大 缩小

  香山科学会议第507次学术讨论会综述

  科学大数据对于科学的推动作用难以估量,然而在科学数据共享政策与机制、大数据管理应用技术与设施以及年轻数据科学家的培养等方面都面临着一系列问题和挑战。为了应对这一巨大变革,及充分利用这一变革带来的机遇, 2014年10月22至24日以“科学大数据的前沿问题”为主题的香山科学会议第507次学术讨论会在北京香山饭店召开。中国科学院遥感与数字地球研究所郭华东研究员,中国科学院生物物理研究所张先恩研究员,中国科学院计算机网络信息中心黄向阳研究员担任本次会议的执行主席。来自信息科学、遥感科学、地理学、气候学、大气科学、高能物理学、天文学、生物学、农学、医学、材料、化学、法学等学科领域的45位专家出席了会议。本次会议针对面向科学大数据研究基础设施、大数据时代科技创新的新模式、科学数据共享新机制和新趋势、科学大数据学科发展与人才培养等四个中心议题进行了充分讨论,并形成了有价值的意见和建议。

  郭华东研究员作了题为“面向知识发现的科学大数据”主题评述报告,阐述了科学大数据概念、特征以及大数据在数字地球、全球变化、高能物理等学科的科学发现中所起到的关键作用;认为科学大数据将成为科学发现与知识创新的新源泉;大数据研究表征了信息主权,具有重大意义,应发展为国家战略;科学大数据正在改变传统的科研方式,成为认识自然的钥匙和科学发现的新引擎;需要系统地设立研究项目,深入探讨科学大数据的研究对象、研究内涵、研究目的和研究方法,应从国家层面进行学科顶层设计,制定科学大数据中长期规划和相关政策,建立科学大数据高水平研究队伍、研究平台和相应机构。

  陈润生研究员作了题为“基因组、大数据与创新”主题评述报告,指出分析大数据是为了创新;并认为要将机遇变为现实,必须认真对待大数据:首先要审视数据,进行海量数据的处理与挖掘,建立新的理论和方法,其次注重科学数据与学科领域的结合。

  主题报告引起了与会专家十分热烈的讨论。专家认为:对于大数据科学问题还需再凝练,应结合实际情况进行大数据研究,同时注意数据保密。应更多从科学领域出发思考一些大问题,不要太注重细节,应从方法论的角度探索国际前沿问题。应有组织有目的地去研究科学大数据前沿问题。应在科学大数据内部特征加入人文特征。需构建数据生态系统。要加大大数据服务于社会发展的力度。大数据根本问题是要注意大数据的思维模式转变。

  一、面向科学大数据的研究基础设施

  在题为“面向科学大数据的研究基础设施”中心议题评述报告中,与会专家阐述了科学大数据新模式下研究方法流程和四大特征,并分析了科学大数据新模式下研究基础设施面临的挑战和目标,提出推动新一代研究基础设施建设与演进的建议:实现数据获取应更泛在化和融合化;形成自动数据获取网络的标识、处理和传输;加强数据共享和价值推动与实现;基于大科学需求牵引下数据的组织和加工;实现数据的自组织装配和适应性;推动数据科学和数据处理技术的发展;加强科学大数据新模式下人才培养。

  与会专家还作了题为“科技资源共享与科技平台——现状与发展趋势”、“大数据时代的高能物理研究基础设施”和“大数据时代的天文研究基础设施”专题报告。

  在讨论中,与会专家认为:大数据必须是多学科交叉,科技界要重视科学大数据的研究与发展。大数据应上升到国家战略,并认同包含软硬件研究基础设施的重要性。研究大数据要从实际应用需求出发。应构建数据汇聚积累和工具共享的公共平台。大数据更多是数据融合、学科交叉问题。要凝练和区别大数据中长期理论问题和短期技术问题。要从源头上抓数据质量,形成国家的数据资源管理体系、安全防范措施。

  二、大数据时代科技创新的新模式

  在题为“科学大数据知识发现的理论与实践”中心议题评述报告中,与会专家认为要用复杂系统的观点来研究数据;用信息论与控制论获取数据;用数学方法与模型进行定量描述;使处理模型与系统构成体系,使主要分析方法具有良好泛化能力。并提出大数据研究几个值得注意的思维方法。

  与会专家还作了题为“CyberGIS for Data-Rich Geospatial Discovery and Innovation” 、“大数据时代的大尺度生态学问题科学研究——理论问题与实践探索”和“科学大数据管理:问题与思考”专题报告。

  在讨论中,与会专家认为:科学大数据应该侧重交叉问题的研究,并形成大数据时代的科研数据基础设施。应构建一个数据资源、分析工具以及可视化等集成化的平台。大数据应有大服务意识。要加强关注能提供高效稳定服务的大数据基础设施。建议从顶层设计解决学科共享的需求、系统化人才的培养和现有人才积极性的发挥,凝练科学大数据基础性理论问题。形成完善的研究基础设施并加强数据质量研究。应调整对数据科学评价体系。从底层的数据建模和认知上进行科学大数据研究。科学大数据要兼顾公共服务基础设施建设和个性化应用模式与服务。

  三、科学数据共享新机制和新趋势

  在题为“科学数据共享新机制与新趋势”中心议题评述报告中,与会专家结合在线详实调查数据分析,提出了科学数据开放与共享的几条思考和建议:建立吸引科研人员主动开放共享数据机制;推动科学数据出版和引用;重视建设开放的公共数据存储库、发展数据出版刊物、完善相应的政策环境等。

  与会专家还作了题为“公众化驱动的地球观测大数据模式”、 “微生物全球数据合作的现状与机制”、 “大数据时代气象数据应用新模式” 和 “大数据时代个人信息的法律保护”专题报告。

  在讨论中,与会专家认为:立法问题是根本的问题,可分类立法、也可形成国务院立法条例;应在项目计划上明确提出数据共享责任。并建议:加强学科交叉,理清科学大数据的概念和体系;形成长久的科学大数据国家行动计划;建立大数据生态系统,研究科学大数据开放路线图;根据分类进行强制性开放和按市场规律并行;形成科学界共享和开放的文化;科技界持续关注科学大数据,应作为国家高层战略,用综合手段研究科学大数据,形成具体计划和实际行动。

  四、科学大数据的学科发展与人才培养

  在题为“数据科学的内涵与数据科学家培养”中心议题评述报告中,与会专家认为在数据和科研的关系上有三个阶段:用数据做科研、在数据上做科研和研究数据。当前数据科学家有三类,即从事商业数据分析的、在数据上做科学研究的和研究数据的。建议设立国家层面的数据科学和大数据专家组,设立数据科学基础理论专项课题,开展数据科学的基础理论研究,尽快在大学设置数据科学专业,加快数据科学学科建设和人才培养。

  与会专家还作了题为“大数据分析人才培养模式的探讨”和“数据科学与国际人才培养”专题报告。

  在讨论中,与会专家指出需要逐步明晰科学大数据人才培养的标准和普适性体系。认为科学大数据人才问题涉及跨学科交叉团队建设;应该从本科阶段开始培养;应建立现有数据人才的激励和评价机制;要关注科学大数据教师队伍的建设。建议单独设置相关专业进行系统培养;进行学科课程交叉设置;形成一套数据组织方面的理论体系和方法;通过交叉课程的设置加快本科学生培养;建立专门的数据科学硕士培养体系;将重点放在博士生培养上;制定科学大数据人才培训行动计划和形成科学大数据MOOC开放平台。

  五、共识与建议

  通过此次会议,与会专家初步达成如下共识:

  1. 大数据是国家新型战略资源,科学大数据已成为大科学发展的新型战略资源,是驱动创新的重要因素。为了占据科学大数据制高点,世界主要大国已把科学大数据纳入到国家战略并开始重点部署实施。我国目前在国家层面对科学大数据重视不够,缺乏对科学大数据的整体战略和规划,因此开展科学大数据前沿问题研究和战略部署意义重大。

  2.科学大数据时代已经兴起,科学大数据驱动各学科新发现的研究模式和引导案例正在探索,如高能物理领域、生命科学领域和天文学领域等。

  3.虽然科学大数据正改变传统科研方式,但在理论方法、关键技术、共享政策和人才队伍等方面面临许多问题与挑战:(1)科学大数据表达、分析、解译等共性基础性理论,及科学大数据管理、处理和服务等方法体系还很不成熟。(2)分布式研究基础设施、科技资源、软件工具的高效集成及泛在化共享等方面面临多学科协同深入研究的挑战,以及共享政策、标准规范、网络带宽等政策和技术障碍。(3)科学大数据在服务科技创新活动中面临诸多数据获取、存储、分析、计算、共享、应用等不同价值链上的技术问题。(4)科学数据资源共享相关的政策法规体系不完善,共享文化还未建立。(5)缺乏科学大数据人才储备,特别是学科交叉型的复合人才和数据科学人才等。

   与会专家提出如下建议:

   1. 制定国家科学大数据发展战略,统筹规划,从国家层面推进科学大数据中长期规划和政策的实施;成立科学大数据国家专家委员会和相应组织。

   2.将科学大数据纳入到国家专项计划中,形成持续性科学大数据计划,系统深入研究科学大数据的基础性科学问题、理论方法和技术体系。

   3.建立科学大数据应用服务与人才培养基地,并纳入到国家基地计划中。发展国家级的科学大数据设施,建立数据科学专业研究机构或中心和科学大数据公共教育体系和平台,将数据科学的人才培养纳入本科、研究生培养体系,同时将数据人才的岗位纳入国家相关岗位体系。

  4.制定科技资源分类、分级共享的立法体系和条例,建立科学数据生态系统,促进科技资源的共享。

附件: