政务数据利用和再利用须规范 当心“起你底”
2018-05-04

随着互联网技术、云计算、物联网等信息技术的快速发展, 电子政务也向着大数据方向发展开来, 整合、互联、共享、重构、高效将成为政务大数据发展的趋势。

但政务大数据的开放共享在提升办事效率、辅助政府决策的同时, 也面临着数据安全问题, 考验着数据治理能力。复旦大学国际关系与公共事务学院副教授、数字与移动治理实验室主任郑磊告诉本刊记者, 政务数据开放后的关键问题是对这些数据的利用和再利用, 目前政府的数据治理能力还有待提高。

数据开放不等于简单的信息公开

《中国电子政务发展报告 (2017) 》 (以下简称《报告》) 指出, 政务大数据的来源不同于其他行业和领域的大数据, 有其独特的含义和价值。数据来源多样复杂, 政务大数据来源大致可包含以下四类:第一是业务数据, 是政府在权力行使过程中采集和产生的数据, 特征是价值密度大、以架构化数据为主第二是社会化数据, 是银行、水电、交通等企业、公民在社会活动中产生的数据, 特征是相对集中、体量大、价值密度中等第三是互联网数据, 是在互联网上活动时产生的数据, 部分反映社会活动状况, 特征是数据分散、体量大、结构多样第四是物联网数据, 是通过互联网设备采集获得的气象、环境、影像等数据, 特征是体量大、高增长、噪声大。

大容量、多类型的政务数据面临着复杂的开放共享问题。

香港大学法律学院博士后研究员陈咏熙指出, 政府数据开放共享不同于简单的政府信息公开。从价值取向上看, 前者是用数据驱动来改善经济、政务、社会服务, 后者是通过保障公民知情权来促进民主监督从数据量上看, 前者是大规模的数据化, 后者主要是纸面信息和少量电子化从数据处理流程上看, 前者是多向且动态流转的, 后者是单向且相对静态从数据处理能力上看, 前者是基于大数据运算能力的普及化, 后者主要取决于个人的处理能力。

郑磊也认为, 开放数据跟传统的信息公开有所不同。世界银行对开放数据的定义是, 数据可以被任何人出于任何目的自由地利用和再利用。完整的、可机读、一手的、非歧视、及时的、非专属性、可获取、免授权是开放数据具有的主要特征。“它特别强调的一点是数据开放之后的利用和再利用, 而不仅仅是开放之后被别人知情。而且开放的是海量的、电子化的数据, 而不仅是开放一些文件那么简单。”郑磊说。

《报告》指出, 政务大数据在开放、共享和应用中主要面临四方面挑战, 需要建设者重点关注。

一是平台服务能力的挑战。通过构建不同类型数据融合的大数据平台, 支撑数据统一存储、统一管理、构建多样化应用, 但随之而来需要面对几种典型问题, 首先利用同一个大数据平台支撑不同部门、不同的应用系统构建各自的大数据应用, 如何能避免应用对平台资源调用的冲突在构建了融合的大数据平台后, 如何在共享数据资产的同时, 保证数据权属的完整性, 有效避免数据资产的泄露。

二是数据处理能力的挑战。随着政务大数据的增加, 各类新的数据类型层出不穷, 对数据处理能力提出越来越高的要求。一方面, 随着政务相关数据来源范围的扩大, 以及音视频内容的增长, 每天都会有海量的增量数据生成, 对这些数据及时进行抽取、转换、加载的批量处理, 将面临巨大挑战。另一方面, 对数据的实时处理能力要求越来越高, 政务服务即办件比例的提升, 信用体系对外即时响应服务的扩展等, 都要求对各类数据及时进行有效性验证。

三是, 数据安全的挑战。大数据的安全与传统信息安全相比变得更加复杂, 主要有三个方面:首先, 大量数据汇集, 其中包括大量政务服务数据、用户信息、个人的隐私和各种行为的细节记录, 这些数据的集中存储增加了数据泄露风险其次, 因为一些敏感数据的所有权和使用权并没有被明确界定, 很多基于大数据的分析需要考虑到其中涉及的个体隐私问题再次, 大数据对数据完整性、可用性和秘密性带来挑战, 在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度。

四是数据融合共享的挑战。数据的海量增长伴随着有用信息的不足, 想用的、能用的数据无处可寻, 可用的、可信的数据极端匮乏, 政务领域的海量数据多处于“休眠”状态, 真正用于提升业务效率、改变业务流程、变革业务发展的应用并不多。有些职能部门对数据的共享开放消极被动, 有些部门基于风险的考虑不愿将业务数据拿出来与其他部门共享, 有些部门限于信息壁垒和标准缺失无法共享开放。

数据开放与隐私保护产生冲突

在政务大数据开放的过程中, 最受人们关注的就是隐私问题。陈咏熙指出, 海量的个人信息正在进入政府数据, 这些信息有可能被第三方再利用, 而非个人信息经大数据挖掘、剖析也转化为个人信息, 这些问题使得政府数据开放可能与个人隐私保护产生冲突。

据陈咏熙介绍, 香港曾经出现过一款名为“起你底”的App, 就引发了有关数据开放和隐私保护的争议。

“起你底”是香港数据库公司GDI2012年推出的一款软件, 软件录入逾200万宗法庭审讯纪录资料, 使用者只要下载软件, 输入所查之人的中文或英文姓名, 便可查阅这个软件从司法机构、破产管理署、公司注册处等不同渠道收集到的市民诉讼、破产及公司董事资料, 有的连身份证号码、住址等都可查到。

公司表示, 有关诉讼的资料都是由公开渠道及合法途径取得, 所有数据及记录的内容均无篡改。但有市民认为, 此举却随时侵犯个人私隐, 对被查阅人士造成不公平, 加上同名同姓的人甚多, 所得数据未必准确。香港个人资料私隐专员公署2012年接获了12宗市民针对“起你底”的投诉及60宗查询。

公署对此介入调查后认为, 软件收集已公开于公共领域的零碎个人数据, 经整合后给人作审查用途及商业用途, 明显偏离数据公开原意, 于是与2013年7月31日发出执行通知, 要求停止程序继续披露其持有的个人数据。陈咏熙指出, 公署认为公诸于众的个人数据仍受《个人资料 (私隐) 条例》等香港现行的法律法规的保护, 因此“起你底”App严重侵犯个人私隐。首先, App违背了一系列数据保障原则, 比如个人数据的使用, 必须与数据最初收集的目的相同或直接相关, 除非事先取得数据主体的同意数据准确无误数据主体有权查阅其数据并更正不准确者。其次, 影响了曾经犯事者自新的机会。第三, 违反了数据主体对数据私隐的合理期待。

但公署的决定也引起了一些反对意见。有资讯业界人士认为, 如果说对公共领域内的个人信息进行再利用得出新的结论, 属于背离了信息使用的最初目的, 那么就是斩断了大数据应用的关键一环。

这一案例中反映出的大数据开放应用与传统信息保护制约的冲突值得人们深思。陈咏熙指出, 从全球来看, 协调公开与隐私问题主要有两种模式, 一种是以美国为代表的偏向信息公开的模式, 一种是以欧盟为代表的偏向隐私保护的模式。但在大数据时代, 这两种模式已经开始出现趋同。不少国家开始认识到政府数据开放对隐私的冲击是全面而严峻的, 不再强调“公开优先”或“隐私优先”的静态原则, 而是倾向于对个案具体问题具体分析, 细究利用信息的目的, 尤其是特定的再利用是否正当等。不过到底怎样才是最佳的解决方案, 各国还都在探索之中。

政府数据治理能力还跟不上

在郑磊看来, 政府在数据开放过程中, 除了在隐私保护这样的问题上缺少法律法规和政策指引, 还存在不少挑战。通过对一些地方政府数据开放和应用情况的调研, 他发现, 政府不仅是数据开放的意愿不强烈, 更重要的是数据治理的能力跟不上。

一方面, 目前很多政府部门不愿意开放数据, 主要是怕开放后出现安全问题被追责。郑磊指出, 数据开放后确实可能面临各方面安全风险。开放数据本身涉及国家机密、商业机密和个人隐私被关联分析后泄露国家安全、商业机密和个人隐私被滥用损害公共利益或第三方利益数据质量有问题被利用后也会造成损失。因此, 政府还是存在“多做多错、少做少错”这样的想法, 并且认为数据是部门资源, 不愿意对外开放。

另一方面, 有些政府部门还不具备数据开放的能力。原因有缺乏体制机制支撑主管部门不明确, 职能繁杂、职责交叉组织与人员能力建设、经费保障、技术基础设施跟不上等。

郑磊强调, 最重要是数据治理能力跟不上。最突出的问题就是数据碎片化很严重, 散落在各个部门, 没有整理起来。除此之外, 数据共用共享、数据权属、数据采集、数据编目、数据标准、数据质量、数据安全等, 都是数据治理的重要内容。而目前还很少有政府部门能形成较为完善的数据治理体系, 这导致政务大数据并不能得到很好的利用。

由复旦大学和提升政府治理能力大数据应用技术国家工程实验室联合发布的《中国地方政府数据开放平台报告 (2017) 》指出, 目前各地开放数据平台上线的数据集在数量上已成规模, 多个地方的数据集总数已突破或接近1000, 但其中能真正符合完整的、原始的、可机读的、非专属的、以接口形式提供等开放数据标准的数据集仍然偏少。不符合标准要求的所谓“数据集”却比比皆是, 或为加工归总后的统计报表, 或为非结构化、不可机读的文本内容, 或为拆分后或未整合的单行数据, 甚至还有数据集名称下面不存在可获取的数据集。这些“数据集”无法被利用, 更不可能产生价值, 将会使数据开放最终流于形式。

对此, 郑磊对政府部门提出的建议是, 政策法规方面, 完善法律法规政策, 明确开放与保护的边界, 制定开放数据标准, 规范开放数据利用和流通管理组织方面, 明确主管部门、制定管理制度、分级分类差异化管理、事中前后全过程管理、开展内部和第三方风险评估、建立预警机制、制定应急预案、建立动态纠错机制、开放社会评议举报、明确责任追究与免责数据与技术方面, 要注重提升整体数据治理水平、开放平数据安全防护体系、数据脱敏、防范数据间相互关联产生的风险、开放数据的质量控制、对已开放数据的长期监测。

上述报告也建议, 对主管部门加强有关开放数据基本知识的培训, 厘清概念, 达成共识然后基于开放数据的基本原则和标准, 从数据利用者的视角和需求出发, 开放完整的、原始的、可机读的、非专属的、结构化的、高价值的数据集, 并配备实用详实的元数据条目, 帮助用户用好数据、用对数据。物尽其用, 数尽其利, 只有开放真正能被“用”起来的数据才能创造价值。