1、大数据安全与隐私保护 LOGO TableofContents 1 大数据研究概述 普遍的观点认为 大数据是指规模大且复杂 以至于很难用现有数据库管理工具或数据处理应用来处理的数据集 大数据的常见特点包括大规模 volume 高速性 velocity 和多样性 variety 根据来源的不同 大数据大致可分为如下几类 1 来自于人 人们在互联网活动以及使用移动互联网过程中所产生的各类数据 包括文字 图片 视频等信息 2 来自于机 各类计算机信息系统产生的数据 以文件 数据库 多媒体等形式存在 也包括审计 日志等自动生成的信息 3 来自于物 各类数字设备所采集的数据 如摄像头产生的数字信号 医疗
2、物联网中产生的人的各项特征值 天文望远镜所产生的大量数据等 2 大数据带来的安全挑战 科学技术是一把双刃剑 大数据所引发的安全问题与其带来的价值同样引人注目 而最近爆发的 棱镜门 事件更加剧了人们对大数据安全的担忧 与传统的信息安全问题相比 大数据安全面临的挑战性问题主要体现在以下几个方面 1 大数据中的用户隐私保护2 大数据的可信性3 如何实现大数据访问控制 2 1大数据中用户隐私保护 大量事实表明 大数据未被妥善处理会对用户的隐私造成极大的侵害 根据需要保护的内容不同 隐私保护又可以进一步细分为位置隐私保护 标识符匿名保护 连接关系匿名保护等 当前企业常常认为经过匿名处理后 信息不包含用户
3、的标识符 就可以公开发布了 但事实上 仅通过匿名保护并不能很好地达到隐私保护目标 例如 AOL公司曾公布了匿名处理后的3个月内部分搜索历史 供人们分析使用 虽然个人相关的标识信息被精心处理过 但其中的某些记录项还是可以被准确地定位到具体的个人 纽约时报随即公布了其识别出的1位用户 编号为4417749的用户是1位62岁的寡居妇人 家里养了3条狗 患有某种疾病 等等 另一个相似的例子是 著名的DVD租赁商Netflix曾公布了约5O万用户的租赁信息 悬赏100万美元征集算法 以期提高电影推荐系统的准确度 但是当上述信息与其它数据源结合时 部分用户还是被识别出来了 研究者发现 Netflix中的用
4、户有很大概率对非top100 top500 top1000的影片进行过评分 而根据对非top影片的评分结果进行去匿名化 de anonymizing 攻击的效果更好L2 对此 我们可以采取的措施有 1 数据采集时的隐私保护 如数据精度处理 2 数据共享 发布时的隐私保护 如数据的匿名处理 人工加扰等 3 数据分析时的隐私保护 4 数据生命周期的隐私保护 5 隐私数据可信销毁等 2 2大数据的可信性 关于大数据的一个普遍的观点是 数据自己可以说明一切 数据自身就是事实 但实际情况是 如果不仔细甄别 数据也会欺骗 就像人们有时会被自己的双眼欺骗一样 大数据可信性的威胁之一是伪造或刻意制造的数据 而
5、错误的数据往往会导致错误的结论 若数据应用场景明确 就可能有人刻意制造数据 营造某种 假象 诱导分析者得出对其有利的结论 由于虚假信息往往隐藏于大量信息中 使得人们无法鉴别真伪 从而做出错误判断 例如 一些点评网站上的虚假评论 混杂在真实评论中使得用户无法分辨 可能误导用户去选择某些劣质商品或服务 由于当前网络社区中虚假信息的产生和传播变得越来越容易 其所产生的影响不可低估 用信息安全技术手段鉴别所有来源的真实性是不可能的 大数据可信性的威胁之二是数据在传播中的逐步失真 原因之一是人工干预的数据采集过程可能引入误差 由于失误导致数据失真与偏差 最终影响数据分析结果的准确性 此外 数据失真还有数
6、据的版本变更的因素 在传播过程中 现实情况发生了变化 早期采集的数据已经不能反映真实情况 例如 餐馆电话号码已经变更 但早期的信息已经被其它搜索引擎或应用收录 所以用户可能看到矛盾的信息而影响其判断 因此 大数据的使用者应该有能力基于数据来源的真实性 数据传播途径 数据加工处理过程等 了解各项数据可信度 防止分析得出无意义或者错误的结果 密码学中的数字签名 消息鉴别码等技术可以用于验证数据的完整性 但应用于大数据的真实性时面临很大困难 主要根源在于数据粒度的差异 例如 数据的发源方可以对整个信息签名 但是当信息分解成若干组成部分时 该签名无法验证每个部分的完整性 而数据的发源方无法事先预知哪些
7、部分被利用 如何被利用 难以事先为其生成验证对象 2 3如何实现大数据访问控制 大数据访问控制的特点与难点在于 1 难以预设角色 实现角色划分 2 难以预知每个角色的实际权限 此外 不同类型的大数据中可能存在多样化的访问控制需求 例如 在 个人用户数据中 存在基于历史记录的访问控制 在地理地图数据中 存在基于尺度以及数据精度的访问控制需求 在流数据处理中 存在数据时间区间的访问控制需求 等等 如何统一地描述与表达访问控制需求也是一个挑战性问题 3 大数据安全与隐私保护关键技术 当前亟需针对前述大数据面临的用户隐私保护 数据内容可信验证 访问控制等安全挑战 展开大数据安全关键技术研究 本节选取部
8、分重点相关研究领域予以介绍 3 1数据发布匿名保护技术3 2社交网络匿名保护技术3 3数据水印技术3 4数据溯源技术4 5风险自适应的访问控制 3 1数据发布匿名保护技术 对于大数据中的结构化数据 或称关系数据 而言 数据发布匿名保护是实现其隐私保护的核心关键技术与基本手段 目前仍处于不断发展与完善阶段 以典型的 匿名方案为例 数据表的k 匿名化 k anonymization 是数据发布时保护私有信息的一种重要方法 k 匿名技术是1998年由Samarati和Sweeney 1 提出的 它要求发布的数据中存在一定数量 至少为k 的在准标识符上不可区分的记录 使攻击者不能判别出隐私信息所属的具
9、体个体 从而保护了个人隐私 k 匿名通过参数k指定用户可承受的最大信息泄露风险 k 匿名化在一定程度上保护了个人的隐私 但同时会降低数据的可用性 早期的方案及其优化方案通过元组泛化 抑制等数据处理 将准标识符分组 每个分组中的准标识符相同且至少包含 个元组 因而每个元组至少与 个其它元组不可区分 由于 匿名模型是针对所有属性集合而言 对于具体的某个属性则未加定义 容易出现某个属性匿名处理不足的情况 若某等价类中某个敏感属性上取值一致 则攻击者可以有效地确定该属性值 在大数据场景中 数据发布匿名保护问题较之更为复杂 攻击者可以从多种渠道获得数据 而不仅仅是同一发布源 例如 在前所提及的 应用中
10、人们发现攻击者可通过将数据与公开可获得的 相对比 从而识别出目标在 的账号 并据此获取用户的政治倾向与宗教信仰等 通过用户的观看历史和对某些电影的评论和打分分析获得 此类问题有待更深入的研究 3 社交网络匿名保护技术 社交网络产生的数据是大数据的重要来源之一 同时这些数据中包含大量用户隐私数据 截至 年 月 的用户成员就已达 亿 由于社交网络具有图结构特征 其匿名保护技术与结构化数据有很大不同 社交网络中的典型匿名保护需求为用户标识匿名与属性匿名 又称点匿名 在数据发布时隐藏了用户的标识与属性信息 以及用户间关系匿名 又称边匿名 在数据发布时隐藏用户间的关系 而攻击者试图利用节点的各种属性 度
11、数 标签 某些具体连接信息等 重新识别出图中节点的身份信息 社交网络匿名方案面临的重要问题是 攻击者可能通过其它公开的信息推测出匿名用户 尤其是用户之间是否存在连接关系 例如 可以基于弱连接对用户可能存在的连接进行预测 适用于用户关系较为稀疏的网络 根据现有社交结构对人群中的等级关系进行恢复和推测 针对微博型的复合社交网络进行分析与关系预测 基于限制随机游走方法 推测不同连接关系存在的概率 等等 研究表明 社交网络的集聚特性对于关系预测方法的准确性具有重要影响 社交网络局部连接密度增长 集聚系数增大 则连接预测算法的准确性进一步增强 因此 未来的匿名保护技术应可以有效抵抗此类推测攻击 3 数据
12、水印技术 数字水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用的方法 多见于多媒体数据版权保护 也有部分针对数据库和文本文件的水印方案 由数据的无序性 动态性等特点所决定 在数据库 文档中添加水印的方法与多媒体载体上有很大不同 其基本前提是上述数据中存在冗余信息或可容忍一定精度误差 例如 等人基于数据库中数值型数据存在误差容忍范围 将少量水印信息嵌入到这些数据中随机选取的最不重要位上 而 等人提出一种基于数据集合统计特征的方案 将一比特水印信息嵌入在一组属性数据中 防止攻击者破坏水印 此外 通过将数据库指纹信息嵌入水印中 可以识别出信息的所有者以及被分发的对象 有利于在分布式
13、环境下追踪泄密者 通过采用独立分量分析技术 简称 可以实现无需密钥的水印公开验证 上述水印方案中有些可用于部分数据的验证 例如残余元组数量达到阈值就可以成功验证出水印 该特性在大数据应用场景下具有广阔的发展前景 例如 强健水印类 可用于大数据的起源证明 而脆弱水印类 可用于大数据的真实性证明 存在问题之一是当前的方案多基于静态数据集 针对大数据的高速产生与更新的特性考虑不足 这是未来亟待提高的方向 3 4数据溯源技术 如前所述 数据集成是大数据前期处理的步骤之一 由于数据的来源多样化 所以有必要记录数据的来源及其传播 计算过程 为后期的挖掘与决策提供辅助支持 早在大数据概念出现之前 数据溯源
14、技术就在数据库领域得到广泛研究 其基本出发点是帮助人们确定数据仓库中各项数据的来源 例如了解它们是由哪些表中的哪些数据项运算而成 据此可以方便地验算结果的正确性 或者以极小的代价进行数据更新 未来数据溯源技术将在信息安全领域发挥重要作用 在 年呈报美国国土安全部的 国家网络空间安全 的报告中 将其列为未来确保国家关键基础设施安全的 项关键技术之一 然而 数据溯源技术应用于大数据安全与隐私保护中还面临如下挑战 数据溯源与隐私保护之间的平衡 一方面 基于数据溯源对大数据进行安全保护首先要通过分析技术获得大数据的来源 然后才能更好地支持安全策略和安全机制的工作 另一方面 数据来源往往本身就是隐私敏感
15、数据 用户不希望这方面的数据被分析者获得 因此 如何平衡这两者的关系是值得研究的问题之一 数据溯源技术自身的安全性保护 当前数据溯源技术并没有充分考虑安全问题 例如标记自身是否正确 标记信息与数据内容之间是否安全绑定等等 而在大数据环境下 其大规模 高速性 多样性等特点使该问题更加突出 3 5风险自适应的访问控制 在大数据场景中 安全管理员可能缺乏足够的专业知识 无法准确地为用户指定其可以访问的数据 风险自适应的访问控制是针对这种场景讨论较多的一种访问控制方法 jason的报告描述了风险量化和访问配额的概念 随后 cheng等人提出了一个基于多级别安全模型的风险自适应访问控制解决方案 等人提出
16、了另一个基于模糊推理的解决方案 将信息的数目和用户以及信息的安全等级作为进行风险量化的主要参考参数 当用户访问的资源的风险数值高于某个预定的门限时 则限制用户继续访问 4 大数据服务与信息安全 大数据与 安全 即 服务 security as service 前面列举了部分当前基于大数据的信息安全技术 未来必将涌现出更多 更丰富的安全应用和安全服务 由于此类技术以大数据分析为基础 因此如何收集 存储和管理大数据就是相关企业或组织所面临的核心问题 除了极少数企业有能力做到之外 对于绝大多数信息安全企业来说 更为现实的方式是通过某种方式获得大数据服务 结合自己的技术特色领域 对外提供安全服务 一种未来的发展前景是 以底层大数据服务为基础 各个企业之间组成相互依赖 相互支撑的信息安全服务体系 总体上形成信息安全产业界的良好生态环境 thankyou
相关知识
大数据安全与隐私保护技术
新型电力系统数据安全与隐私保护
大数据安全与隐私具体有哪些
如何确保农业数据安全与隐私保护?
酒店管理公司行业数据安全与隐私保护.docx
聚焦人脸数据安全与隐私保护,你的个人信息安全吗?
医疗大健康产品设计中的隐私保护与数据安全策略|绿创设计
【干货】校园安全 | 保护好学生的隐私
隐私保护与开放共享:AI时代的教育数据治理变革
幼儿花名册的数据如何进行隐私保护?
网址: 大数据安全与隐私保护.ppt https://m.huajiangbk.com/newsview2155258.html
上一篇: 数据隐私与保护:叉车管理系统的数 |
下一篇: 华为又一重大发布!引领酒店行业数 |