【摘 要】大数据模糊了密与非密的界限,给国家秘密范围带来重大挑战。大数据条件下,泄露国家秘密的渠道不断增多,加之数据的累积和相互结合使得国家秘密的可保性减弱。随着大数据及相关科学的不断发展,对关系国家安全信息的获取,可以通过主动构建大数据模型,变被动数据分析为主动获取信息。在“数据为王”的思路下,关系国家安全的行为可以通过算法予以判断和预测。大数据背景下的国家秘密安全已经越来越算法化。有效应对大数据对国家秘密范围的挑战,我们应当及时将关键、核心数据纳入国家秘密范围进行保护,同时有效管控非涉密大数据的共享,并且准确、合理、动态地调整国家秘密事项范围。
【关键词】国家秘密 大数据分析 秘密范围
1 引言
随着互联网、物联网、传感网、云计算等IT与通信技术的迅猛发展,“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合,引发数据规模几何式增长和数据模式极度多样化,网络化的大数据时代已悄然来到我们身边。在大数据时代,虽然世界各国普遍加强对个人信息和关系国家安全信息的保护,但毋庸置疑,个人保护其隐私的难度在加大,国家保守其秘密的能力也在变得脆弱。大数据对国家秘密最大的影响是模糊了密与非密的界限,打破了传统的定密习惯,首当其冲体现在国家秘密范围的确定上。国家秘密范围决定了保密工作的对象,是一切保密工作的肇始。大数据对于国家秘密范围的直接挑战是,一些传统意义上的国家秘密信息的可保性急剧下降,而关系国家安全的关键、核心数据亟待纳入保密管控范畴[1]。
2 大数据与国家秘密概述
研判大数据对确定国家秘密范围的挑战,就必须对大数据和国家秘密的内涵和外延进行分析和界定,找出两者盘根错节、错综复杂的相互关系。
2.1 大数据的概念与本质
大数据是近年来炙手可热的一个概念,目前却还没有权威的定义。从字面上理解,大数据就是指非常大的数据集合。然而,这却不能说是大数据的精髓。国外有学者将大数据界定为“5V”(Volume,Velocity, Variety, Veracity, Value)[2]。“Volume”代表数据的海量化,数据的体量决定了其价值和潜力,海量的数据是大数据的应有之意。“Velocity”代表数据的快速产生、流动和处理。“Variety”代表数据的多样化,大数据不仅来源于人们在互联网活动以及使用移动互联网过程中所产生的各类数据;也包括各类计算机系统产生的文件、数据库、审计、日志等大量数据;还越来越多地包括各类数字设备所采集的数据,如监控数据、医疗数据、神经网络数据、基因数据等。“Veracity”代表数据的真实性,大数据来源应真实,保证对数据的准确分析。“Value”代表数据的价值性,大数据条件下任何有价值信息的提取依托的是海量的基础数据,也即大数据具有价值低密度性。应当说对“5V”的理解,较为全面地概括了大数据的特征,这些特征也将是下文讨论大数据对国家秘密范围造成挑战的基本依据。
然而,“5V”的界定局限在描绘大数据的外在特征;大数据的内在实质,更重要的是解决问题方法的革命、理解事物本质的变化。王国维先生提出治学有“三种境界”,其实对大数据的理解也有三重境界,而每一重境界,都会对国家秘密范围产生巨大的影响。第一重境界:技术层面的大数据,即直接运用最大化的计算能力和算法精度的技术,对大型数据进行收集、分析和比较,进而得出需要的结论或者信息。技术层面的大数据影响的是数据层面的国家秘密,即国家对一些敏感数据的保护,在大数据背景下很可能就缺乏其可保性。第二重境界:方法层面的大数据,即大数据成为主动获取结论或者信息的方法。人们根据需要,有目的地去建立、搜集、积累大数据模型,创新、发展大数据工具去清理、比较、分析数据,进而得出人们所希望获得的结论或者信息。方法层面的大数据影响的是靠数据分析能够得到的关乎国家安全的重要敏感信息,比如尚未公开的国家财经政策、内部掌握的外交政策等。第三重境界:信仰层面的大数据,即大数据成为一种信仰或者说数据主义。历史学家尤瓦尔·赫拉利在《未来简史》中作了耸人听闻的论述:数据主义的发展将造成人类认知发生质的改变,传统上由数据转化为信息,由信息转化为知识,由知识转化为智能已不再现实,数据处理应当交给算法,而人类只需要获得算法得出的结论。笔者不相信尤瓦尔·赫拉利的论证,但需要警惕数据主义给国家秘密安全造成的威胁。如果我们获取的认知完全来源于算法得出的结论,那么谁占有数据,谁就是王者,谁就将知晓一切的秘密。斯诺登披露出来的有关文档,暴露了美国国家安全局的情报收集态势,那就是“Collect it all, process it all, exploit it all, sniff it all, know it all”(收集一切,处理一切,利用一切,嗅探一切,知晓一切)[3]。这句话可以说是对数据为王的最好注解。
2.2 国家秘密的概念和要素
根据我国《保密法》的规定,国家秘密是指关系国家安全和利益,依照法定程序确定,在一定时间内只限一定范围的人员知悉的事项。从笔者搜集的资料看,这一概念是世界主要国家普遍采纳的国家秘密的定义,区别在于各个国家对国家安全和利益的内涵及外延理解的不同。一般理解,国家秘密的确定包括实质要件和形式要件,实质要件即关系国家安全和利益,泄露后会给其造成实质性的损害;形式要件即国家秘密必须依照法律规定的主体、权限、标准和程序确定。此外,国家秘密的确定还暗含着两个前提要素,一个是保密的必要性,即保密价值问题;另一个是保密的可保性,即是否具有保密条件问题。
大数据对国家秘密的影响,恰恰就在于对国家秘密所暗含着的保密的必要性和可保性的挑战上。一种情况是,在大数据格局下,一些数据以及可以由这些数据通过算法得到的信息虽然关系国家安全和利益,但已经不具有可保性,就不能再作为国家秘密予以保护。例如,我国过去将动物疫情作为国家秘密管理。2003年8月4日,农业农村部和国家保密局联合下发《关于解除动物疫情保密管理的通知》,明确动物疫情不再属于国家秘密。笔者认为,即使在法规文件上仍将动物疫情作为国家秘密,在当前大数据背景下,对动物疫情进行保密可能是强人所难了。另一种情况是,过去收集到足以危害国家安全的数据或者通过这些数据挖掘出危害国家安全信息的情况不现实,但随着大数据技术的发展,目前已具有可能性。因此,在具有保密的必要性和可保性的前提下,有必要将这些数据纳入国家秘密保护范畴。例如,2001年,美国、英国、法国、德国、日本和中国6个国家超过3000名科学家共同参与的第一个人类基因组草图绘制完成,耗时13年、耗费超过30亿美元;2007年,第一个中国人基因组耗时数月、耗费300万美元完成;目前,对一个人的全基因组测序有望控制在24小时、花费在300美元以内。因此,20年前对一个国家、一个种族、一块特殊地域的大量人群样本进行全面的基因组测序是不可能完成的事,而现在则已经成为现实。对人类遗传资源数据进行有效管控,已经是国家安全领域的重要课题。
3 大数据对国家秘密范围挑战的主要表现
3.1 大数据条件下泄露涉及国家安全信息的渠道不断增多
大数据研究不同于传统的逻辑推理研究,而是从海量的、不同种类的数据中进行搜索、比较,寻找数据之间的相关性,进而推断出具体信息。因此,涉及国家安全信息的泄露渠道不断增多。首先,一些国家秘密数据在“人、机、物”高度融合的大数据条件下,作为国家秘密进行管控的难度明显加大。例如,在俄罗斯属于国家秘密的有关情报名录中,包含“有色和稀有金属的生产数量”[4]。随着大数据等相关技术的发展,冶金领域有关勘探、开采、运输、冶炼、存储、销售等均向着数字化管理的方向发展,相关生产设备和生产场所是数字化生产网络的组成部分,也在实时产生着大量数据,如果要对“生产数量”进行保密,就必须在各个环节采取措施,势必要付出较为高昂的代价。其次,一些由数据分析可以得到的关乎国家安全的信息保密难度不断加大。例如,对影响粮食安全领域有关敏感信息的研判,可以基于耕地数据、气候数据、农业技术数据以及农产品市场数据、主要产粮国家经济政治数据等予以综合推断;我们对金融领域有关涉及国家安全政策的推测,可以基于信息化背景下金融、投资、消费、进出口等大数据进行分析和推算。
3.2 大数据积累有可能造成对国家安全的危害由无到有、由浅到深
海量数据是大数据最典型的特征。大数据不断累积造成对国家安全的危害,有可能发生从量变到质变。随着大数据等相关技术的发展,在一些以数据为中心的科学研究方面,如基因组学、神经科学等,将会产生越来越多的数据,在某些领域就有可能逐步产生危害国家安全的后果。例如,某单个个体的基因组测序数据对国家安全不可能构成危害,少量个体的基因组测序数据也可能不会构成危害,但大数据级别的基因组测序数据,在结合特殊地域特征、特殊民族特征、特殊种群特征、特殊疾病特征、特殊代际关系特征的情况下,就足以有可能对国家安全、民族安全、种族安全甚至特殊对象安全造成严重危害。此外,作为大数据重要来源的工业设备监控、视频监控系统,伴随着大量数据的积累,也会产生类似的后果。例如,局部地区、短时间的视频监控数据对国家安全影响可能有限,但较大区域范围(甚至包括一些涉密或者敏感区域)、长期不间断的视频监控数据,如被非法获取就有可能对我国家安全、军事安全等造成重大影响。举个例子,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控、分析[5],若结合其他相关数据或者信息,就不排除会对国家安全产生潜在的危害。
3.3 大数据相互间的可结合性,使得对国家安全的危害后果具有放大效应
前文谈到大数据的一个典型特征就是数据的多样化,数据的多元给数据分析与挖掘工作带来了更多的可能性。将来源于多种渠道、利用多种采集方式获取的具有不同结构的数据汇聚到一起,相互补充、相互印证,就有可能会获得关乎国家安全的重要敏感信息。例如,前不久媒体广泛报道,美国军方认为一款跑步类App公布的用户使用轨迹,有可能对美军在国内和海外的众多军事基地造成泄密。单纯的用户使用轨迹已经给军事秘密安全造成严重威胁,若再结合官兵手机中语音通话、即时通讯、电子邮件、通讯录、定位信息、健康信息、消费信息、摄录设备获取的信息以及大量其他App获取的信息,就可以轻易掌握官兵个体的工作内容、生活习惯、业余爱好、社交范围等情况,也就不难从中获取国家秘密或者军事秘密等关乎国家安全的敏感信息。此外,随着互联网、物联网、传感网的高度融合,不同类型数据之间具有极强的可结合性,往往可以共同作用从而对国家安全造成潜在的危害。例如,广义上的健康医疗大数据既涵盖了医疗机构有关病历、健康档案数据,也涵盖了个人健康监控设备(如穿戴式健康相关电子产品)实时产生的大量监控数据,甚至还涵盖了治疗类设备(如无线网络控制的心脏起搏器)监控、控制产生的大量数据。这些数据如果结合其他大数据,黑客通过网络攻击总统的心脏起搏器就不再仅是电视剧中的情节了。
3.4 大数据分析可以揭示数据背后的关联性,进而有目的地组建大数据模型以获取信息
大数据软件公司Cloudera董事威尔士曾说过,数据科学家比任何软件工程师都擅长统计,也比任何统计学家都擅长软件工程[6]。大数据的重要特点是结构化数据、半结构化数据和非结构化数据并存,并且半结构化和非结构化的数据占数据量的绝大部分。这些数据往往呈现显性或者隐性的网络化存在,使得数据之间的复杂关联度无所不在。这种关联性研究在2009年已初见端倪。国际知名大数据专家、牛津大学教授舍恩伯格在《大数据时代》一书中举了谷歌公司预测流感的案例。当年,在甲型H1N1流感暴发的几周前,谷歌公司的工程师们在《自然》杂志发表了一篇引人注目的论文,解释了谷歌为什么能够预测冬季流感的传播,令公共卫生官员们和计算机科学家们感到震惊。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条搜索指令,如此庞大的数据资源足以支撑和帮助它通过分析人们的搜索记录完成这个预测。在将得出的预测与美国疾控中心的记录情况进行对比后,谷歌发现了45条检索词条的组合,将这些词条用于特定的数学模型后,他们的预测与官方数据相关性高达97%[7]。因此,随着大数据及相关科学的不断发展,为了获取某方面的信息,我们有希望通过社会学、伦理学、心理学、经济学等学科,对大数据之间相互联系的机理进行分析,找出能够推测相关信息的数据关联性,进而有目的地组建大数据模型,变被动分析数据为主动获取信息。
3.5 大数据分析能力的不断提升可能对国家安全造成持续的危害
大数据是信息时代永不枯竭的“金矿”。通过对大数据的开放整合和深度分析,能够发现新的知识、创造新的价值。现有大数据的价值并不仅限于当前特定的用途,我们要从大数据技术发展的长远眼光和大数据相互融合的现实背景出发,判断大数据未来可能被使用的各种方式,而不能局限于眼前的价值。当前价值不大的大数据或者所谓“垃圾大数据”,在未来有可能具有重大价值,随着大数据分析能力的提升,极有可能从中提取到关乎国家安全的重要信息。
3.6 “数据为王”思路下,谁占有了数据,谁就占有了国家秘密
习近平总书记指出:大数据是工业社会的“自由”资源,谁掌握了数据,谁就掌握了主动权。大数据更能真实、直观、全面地反映事物的性质和发展的趋势,有效地摒弃个体的差异和局部的偏离;大数据分析得到的结论往往更加准确、可靠,在此基础上采取的措施将会更加实际、理性。大数据时代,人们说“隐私已死”,也就是说数据反映了社会主体最真实的一面;反过来思考,不难得出“谁占有了数据,谁就掌握了一切信息”的结论。例如,我们不会对搜索引擎说谎,比起我们的朋友、家人和爱人,我们与它更为亲密。我们总是告诉搜索引擎我们最想知道的是什么,我们一直在想的是什么,甚至为了搜索的精准,我们会用最准确、最简练的语言来描述我们的想法。当万千搜索记录汇聚起来时,我们便认识了真实的自己,他人也就认识了真实的你。因此,当我们遵循由数据产生信息、由信息作出判断的认知逻辑时,只要占有了数据,不论拥有数据的主体是谁,都会根据算法得出的结论,作出理性的判断,采取理性的措施。从境外资料看,大数据科学研究的重点之一集中于人类社会行为方面的研究。如果人类的社会行为也能够通过算法来作出判断,那么由人构成的国家机构的行为也同样能够通过算法作出预测。综上,可以毫不夸张地说,大数据背景下的国家秘密安全在某种程度上已经越来越算法化。
4 应对大数据对国家秘密范围的挑战
习近平总书记在中共中央政治局就实施国家大数据战略进行第二次集体学习时指出:“要切实保障国家数据安全。要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。”[8]这为我们有效应对大数据给国家秘密安全带来的挑战指明了方向。在国家大数据战略背景下,我们要根据实际妥善采取相应的应对方式,控制危害的产生,确保国家秘密的安全。
4.1 关键、核心数据应当纳入国家秘密范围进行保护
关键、核心数据往往直接或者间接与国家安全有着极为紧密的关系。大数据的特点决定了关键、核心数据应当牢牢掌握在国家手中,必要时应当作为国家秘密进行保护。因此,我们应当在总体国家安全观战略思想的指导下,充分研究大数据与国家安全之间的关系。对于关系国家安全的大数据,要对保密与否的利害进行价值判断,在具有必要性和可保性的前提下,把应当保密的大数据纳入国家秘密范围,确保国家安全。例如,2019年5月28日,国务院颁布《中华人民共和国人类遗传资源管理条例》(以下简称《条例》)。《条例》第四十六条规定,人类遗传资源相关信息属于国家秘密的,应当按照《中华人民共和国保守国家秘密法》和国家其他有关保密规定实施保密管理。从这一条文可以看出,特殊的人类遗传资源可能关乎国家安全,也应当作为国家秘密管理。我们应当抓紧研究,明确哪些关键、核心的人类遗传资源数据需要纳入国家秘密范围进行管理。同样,在总体国家安全观指引下,对于金融、资源、能源、粮食、网络等国家安全重点领域中,哪些大数据应当纳入国家秘密范围进行管理,迫切需要我们认真加以研究。
4.2 非涉密数据应当得到有效管控
大数据时代,非涉密大数据甚至垃圾大数据都具有其基本价值和潜在价值,都有可能从中挖掘出有价值的信息,甚至是关系国家安全的信息。一方面,随着数据分析能力的不断提升,非涉密大数据和垃圾大数据极有可能焕发出新的活力,从中挖掘出过去没有能力发现的关系国家安全的“宝藏”;另一方面,虽然孤立的非涉密大数据和垃圾大数据对国家安全看似不可能造成危害,但是一旦这些数据可以和其他大数据相融合,就极有可能变为宝贵的数据资源,发掘出有价值的重要信息。因此,应当清醒地认识到非涉密大数据以及垃圾大数据存在的泄密风险。2015年8月,国务院常务会议通过《关于促进大数据发展的行动纲要》,明确要求推动政府信息系统和公共数据互联共享,深化大数据在各行业创新应用。大数据互联共享不是无条件的,而必须是在切实保障国家数据安全基础上的互联共享。我们要加强对大数据危害国家安全相关理论和实践的研究,准确研判大数据当前和未来可能对国家安全产生的影响,做到既不能因为大数据共享共用而严重危害国家安全,也不能片面追求绝对安全而阻碍大数据对各方面事业的巨大推动作用。既要推动大数据共享共用,又要依法严格控制共享范围,防止过度扩散。同时,要密切关注共享共用的大数据并能在一旦发生危害国家安全情况下,采取必要的应急处置措施。
4.3 准确、合理、动态地调整国家秘密范围
大数据时代,国家重要信息的拥有者和发布者不断分散、存在方式发生巨大变化,通过数据分析获取国家重要信息的途径增多、能力增强,这将对国家秘密范围造成巨大的影响。我们在制定、修订某些行业、系统、领域保密事项范围时,应当引进专业的大数据公司和数据科学家,依托科学合理的应用模型,评估保密事项范围在大数据背景下的可行性,评估哪些大数据可能产生危害国家安全的后果且应当作为国家秘密进行保护。对于已不具有可保性的国家秘密事项,要及时从保密事项范围中剥离出去。对于一些通过大数据分析有可能被准确预测,且确实关系国家安全的信息,要研究其是否具有保密的必要性和可保性;如果可以通过切断数据获取、分析和预测的途径达到保密效果的,应当纳入保密事项范围予以保护。要坚持大数据互联共享为原则,关系国家安全的数据保密为例外,把必须保密的数据控制在最小的知悉范围,准确、合理、动态地调整国家秘密范围。
大数据时代的到来,对国家秘密范围的挑战将是长远和持续的,从而对保密管理的方式、要求和标准都将产生重大影响,也必将推动保密工作再次产生革命性的变革。我们应当充分认识当前大数据给保密工作带来的机遇和挑战,按照习近平总书记的要求,审时度势、精心谋划、超前布局、力争主动,既确保国家大数据战略的扎实推进,又确保国家秘密的绝对安全。
参考文献
[1]李伟国.大数据格局下的保密、泄密与防范[J].保密工作,2018(04):44.
[2] Nikunj Joshi & Bintu Kadhiwala.Big Data Security and Privacy Issues–a Survey[C]. Proceedings of the International Conference on Innovations in Power and Advanced Computing Technologies, 2017:1~5.
[3] Glenn Greenwald,Murtaza Hussain.Meet the Muslim-American Leaders the FBI and NSA Have Been Spying On[N/OL].(2014-07-09)[2019-06-07].
[4]国家保密局法规室编.外国保密法律法规汇编[M].北京:金城出版社,2009:103.
[5]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状与科学思考[J].中国科学院院刊,2012(06):648.
[6] Michael Landon-Murray.Big Data and Intelligence: Applications, Human Capital, and Education[J].Journal of Strategic Security,2016(02):99.
[7] [英]维克托·迈尔,舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012:3.
[8]习近平在中共中央政治局第二次集体学习时强调审时度势精心谋划超前布局力争主动实施国家大数据战略加快建设数字中国[N].人民日报,2017-12-10(01).