第2部分:技术模块(第4-9章)
第4章 数据采集与预处理
1、大数据的采集来源
单选题4.1
大数据的采集来源包括()
A. 商业数据
B. 互联网数据
C. 物联网数据
D. 以上都是
答案:D
填空题4.1(四大来源)
大数据的四大主要来源为:
商业数据、互联网数据、物联网数据、政府数据
2、大数据采集的方法
简述题4.2
简述网络数据采集的步骤:
采用网络爬虫方式进行数据采集时,通常包含以下六个基本流程:
- 将目标网站的统一资源定位符(URL)信息写入URL队列中。
- 爬虫程序从该队列中读取待抓取网页的SiteURL地址。
- 通过Internet访问对应页面,并提取其中的关键内容或特定属性值。
- 将抽取到的数据存储至数据库中。
- DataProcess(DP)模块读取爬虫所采集的数据(SpiderData),并进行清洗和结构化处理。
- DP模块将处理完成后的结果重新写入目标数据库,供后续分析使用。
3、大数据的预处理
单选题4.4
大数据预处理的第一步是()
A. 数据规约
B. 数据集成
C. 数据交换
D. 数据清洗
答案:D
填空题4.3
数据变换涉及的内容包括:
平滑、聚集、数据概化、规范化、属性构造、离散化
填空题4.4(三个空)
数据集成主要包括:
模式识别和对象匹配、数据冗余、数据冲突的检测与处理
简述题4.4
简述数据归约的三种方法:
- 数据立方体聚集:数据立方体是一种多维数据结构,支持从多个维度对数据集进行分析。通过对立方体执行聚集操作,可以降低数据粒度,减少处理量。这种操作可在最低层级或多层级上进行。若能完全还原原始数据,则为无损归约;若只能近似恢复,则属于有损归约。
- 维归约:实际数据往往包含大量属性,其中部分属性可能无关或冗余,影响处理效率。维归约为减少维度数量,剔除不相关特征。例如,在分析学生成绩与选课关系时,可忽略电话号码等无关字段。常用方法包括属性子集选择、小波变换以及主成分分析(PCA)等。
- 特征值归约:又称特征离散化技术,旨在将连续型变量划分为有限个区间,每个区间映射为一个离散符号,从而简化模型描述并提升可解释性。该方法可分为两类:一是有参数方法,如线性回归、多元回归及对数-线性模型;二是无参数方法,如直方图(V最优、MaxDiff)、聚类(以簇代表数据点)和抽样技术(简单抽样、分层抽样、聚类抽样)。
简述题4.6
简述OLAP中的多维分析操作:
OLAP(联机分析处理)提供多种交互式操作,帮助用户从不同视角深入探索多维数据,核心操作包括:切片、切块、钻取、旋转、上卷。
- 切片(Slice):在某一维度上固定一个具体成员,从而获得一个低维的数据子集。例如,在时间维上选定“2023年”,得到其余维度构成的三维数据切面。
- 切块(Dice):在两个或更多维度上选取一定范围的成员,形成一个多维子集。既可以在单一维度上划定区间,也可同时在多个维度上筛选,获取更精细的数据片段。
- 钻取(Drill-down):用于调整分析粒度。向下钻取表示从汇总数据深入到底层细节(如从年度销售额查看季度或月度数据),或增加新的维度;向上钻取则是反向聚合,将细粒度数据合并为更高层次的汇总信息。
- 旋转(Pivot):改变数据显示的方向或布局,例如将行维度与列维度互换,以便于观察不同的数据组合形式。
- 上卷(Roll-up):作为钻取的逆过程,指从详细数据逐层向上聚合,依据层级结构生成更高层次的汇总结果,常用于趋势分析与报表生成。
第5章 大数据的存储与处理
1、分布式文件系统
填空题5.1
文件系统主要由三个部分组成,分别是:
文件系统的接口、对对象操作和管理的软件集合、对象及属性
2、NoSQL 数据库
单选题5.2
NoSQL数据库的存储方式不包括()
A. 键值式存储
B. 文档式存储
C. 行式存储
D. 图形式存储
答案:C
填空题5.2
NoSQL数据的主要存储方式有:
键值式存储、文档式存储、列式存储、图形式存储
简述题5.1
简述NoSQL数据库的特点:
NoSQL数据库具有以下几个显著特点:
- 非关系型设计,摆脱传统表格结构限制,适用于非结构化或半结构化数据存储。
- 高可扩展性,支持水平扩展,易于在分布式环境中部署。
- 灵活的数据模型,允许动态添加字段,无需预先定义严格schema。
- 高性能读写能力,尤其适合大规模并发访问场景。
- 弱一致性保障(最终一致性),牺牲强一致性换取高可用性和分区容忍性,符合CAP理论中的权衡选择。
- 支持多种数据模型,如键值对、文档、列族、图形等,满足多样化的应用场景需求。
3、数据仓库
单选题5.3-5.4
数据仓库的基本特征不包括()
A. 面向过程的
B. 集成的
C. 时变的
D. 非易失的
答案:A
数据仓库的逻辑模型不包括()
A. 事实星座模式
B. 星形模式
C. 关系型模式
D. 雪花形模式
答案:C
填空题5.3-5.4
数据仓库系统的组成部分包括:
数据仓库、ETL工具、元数据、访问工具、数据集市和数据仓
第5章 大数据处理框架
数据仓库的逻辑模型主要包括以下几种结构形式:星形模式、雪花形模式以及事实星座模式。
4、Hadoop 处理框架
单选题5.5
Hadoop 的两大核心组件是()
- A. HDFS 和 MapReduce
- B. HDFS 和 YARN
- C. Spark 和 MapReduce
- D. MLlib 和 Hive
答案:A
简述题5.4
MapReduce 作业流程简述如下:
- 数据分割(Data Splitting):当用户提交一个 MapReduce 任务至 Hadoop 集群时,系统首先将输入数据切分为多个数据块。JobTracker 负责选择空闲的 TaskTracker,并将这些数据片段分发到对应的节点上进行处理。
- 映射阶段(Mapping):TaskTracker 执行 Map 任务,将各自分配的数据片段转换为键值对(Key-Value),并以哈希结构 <k1, v1> 的形式进行存储。
- 洗牌阶段(Shuffling):在 Map 任务完成后,系统会对中间结果进行重新组织与合并。该过程确保具有相同键的数据被集中发送至同一个执行 Reduce 任务的 TaskTracker,从而避免数据相关性问题,提升计算效率。
- 归约阶段(Reducing):JobTracker 分配空闲的 TaskTracker 并行执行 Reduce 操作。在此阶段,系统会识别出键相同的键值对,并将其对应的值进行聚合运算,最终生成每个键所对应的结果数据集。
第6章 大数据分析方法
1、大数据分析方法的类型
单选题6.1-6.2
若依据任务复杂度和价值产出进行划分,最具挑战性且产生最大价值的大数据分析方法是()
- A. 描述分析
- B. 诊断分析
- C. 预测分析
- D. 规范分析
答案:D
选择题
用于描述数据集中趋势的统计指标包括()
- A. 平均数
- B. 极差
- C. 分位距
- D. 标准差
答案:A
说明:衡量数据集中趋势的主要指标有平均数、中位数和众数;而极差、分位距、平均差、标准差和离散系数则属于反映数据离散程度的指标。
填空题6.1
从统计学角度出发,大数据分析方法可划分为三类:
描述性分析、探索性分析和验证性分析
2、关联规则、分类与预测、聚类
本部分内容涉及“第六章 数据挖掘方法练习题”,另有专项整理资料可供参考。
3、时间序列分析
单选题6.7-6.8
在时间数列中,数值大小与时间跨度存在直接关系的是()
- A. 平均数时间数列
- B. 时期数列
- C. 时点数列
- D. 相对时间数列
答案:B
时间序列中每年重复出现的周期性波动称为()
- A. 长期趋势
- B. 季节变动
- C. 循环变动
- D. 随机变动
答案:B
填空题6.5
根据指标变量的特性,时间序列可分为两类:
平稳序列和非平稳序列
4、人工神经网络
填空题6.6
人工神经网络通常由三个基本层次构成:
输入层、隐藏层、输出层
第8章 大数据可视化
1、数据可视化的作用
填空题8.1
数据可视化的四大功能包括:
观测和跟踪数据、分析数据、辅助理解数据、增加数据吸引力
2、基于文本的可视化分析方法
填空题8.2
基于文本的可视化主要分为三类:
基于标签云的文本可视化、基于树图的文本可视化、基于关联的文本可视化
简述题8.3
什么是基于文本的可视化方法?
该类方法主要包括以下三种形式:
- 基于标签云的文本可视化:又称词云或文字云,是最常见的词频可视化方式。它通过调整字体大小或颜色来突出关键词的重要性,常用于展示网站内容或用户生成标签的汇总信息。词语一般按字母顺序排列,视觉权重体现其频率或重要性。
- 基于树图的文本可视化:也称树状图或树形地图,是一种用于表现层次化数据的图形方式。每个方块代表一个数据项,面积大小反映其权重,空间布局表示层级或从属关系。这种方法有助于快速识别主题与关键词,区分其重要程度,并支持交互式浏览,点击后可查看更详细的信息。
- 基于关联的文本可视化:旨在揭示文本中多维信息及关键词之间的联系,常用 FacetAtlas 算法实现。该算法能将相互关联的节点聚集在一起,与其他群组明显分离,形成清晰的数据簇。可用于单文档或多文档词语关系的可视化,也可呈现文档间的引用结构,根据不同内容生成多样化的图形表达。
3、基于图形的可视化分析方法
(后续题目略,详见原题库中的单选题8.2-8.5部分)
下列()的特征是始末端的分支宽度总和相等
A.桑基图B.折线图
C.条形图D.柱状图
答案:A
()能显示出随时间而变化的连续数据
A.散点图B.折线图
C.饼图D.柱状图
答案:B
柱状图和条形图的本质是相同的,仅指示方向不同。在延伸方向上,柱状图为()延伸
A.水平B.斜上方
C.垂直D.斜下方
答案:C
散点图的基本类型不包括()
A.散点图矩阵B.ArcGIS散点图
C.三维散点图D.复合散点图
答案:D
散点图可分为散点图矩阵、三维散点图和ArcGIS散点图。
填空题8.4
饼图可分为普通饼图、复合饼图和分离型饼图三类。
简述题8.6
数据可视化面临着哪些挑战?
第9章 大数据安全
1、大数据安全的概念
单选题9.1
在传输、存储数据的过程中,确保数据不被未授权者篡改、损坏、销毁或在篡改后能被迅速发现,是大数据安全的()
A.保密性B.完整性
C.可用性D.真实性
答案:B
填空题9.1-9.2
大数据安全具有保密性、完整性和可用性的特点。
数据存储阶段需要保证数据的完整性和可用性。
2、大数据安全问题的分类
简述题9.1
简述大数据安全问题分类:
- 大数据存储安全:云存储平台并非完全可信,存在非法入侵、数据泄露或篡改的风险;同时,数据量呈指数级增长,处理多种类型与结构的数据易导致存储错位和管理混乱,为后续数据处理埋下安全隐患。
- 大数据传输安全:在数据传输过程中,可能面临数据失真、信息泄露、内容被篡改,以及遭受数据流攻击等威胁。
- 大数据平台访问控制安全:在大数据环境中需实施身份认证与权限管理,但由于涉及大量未知用户和数据,预先设定角色变得极为困难。
- 大数据运行计算安全:由于应用场景多样,频繁的数据共享与交换使数据流动路径复杂化,加之采用分布式与虚拟化处理模式,增加了数据在分析过程中被窃取的风险。
- 大数据基础设施安全:基础设施为大数据平台提供必要的存储、网络及传输资源,涵盖物理与虚拟资源。攻击者常通过非授权访问、破坏数据完整性或传播病毒等方式对这些基础组件发起攻击。
3、大数据安全防护技术
单选题9.3-9.5
下列()不是关于APT的正确描述
A.长期驻留目标系统,保持系统的访问权限
B.网络流量异常检测技术的数据源种类较为单一
C.APT中恶意代码伪装性和隐藏性很高
D.有组织、无特定目标、破坏力大、持续时间长
答案:D
以下关于k-匿名技术的说法中,正确的是()
A.k-匿名通过对数据进行概括和隐匿,发布精度较高的数据
B.k-匿名使得同一个准标识符至少有k条记录,观察者能够通过准标识符连接记录
C.k-匿名处理后攻击者无法知道某个人是否在公开的数据中,也无法确认某条数据对应的是哪个人
D.经k-匿名处理后的数据可用性较高
答案:C
k-匿名通过对数据进行泛化处理,发布精度较低的数据,确保同一准标识符集包含至少k条记录,从而防止观察者通过准标识符将记录关联到具体个体。
()除了能实现基本的加密操作之外,还能实现密文之间的多种计算功能
A.数字水印B.数字签名
C.同态加密D.可搜索加密
答案:C
填空题9.3-9.6
数字签名时使用私钥,验证签名时使用公钥。
基于角色的访问控制需要建立“用户-角色”与“角色-权限”的映射关系。
发生数据安全事件后,安全审计为数据溯源提供支撑。
由于大数据具有易复制的特性,在发布和共享数据前需进行有效审计,以保障数据的完整性、真实性和有效性,降低云平台服务的信任风险,并在安全事件发生后支持数据溯源工作。(P217)
可搜索加密技术是一种基于密文进行关键字搜索查询的方案。
简述题9.3
大数据安全相关技术有哪些?
大数据安全防护的关键技术包括:数据加密技术、数据真实性分析与认证技术、访问控制技术、安全审计技术、数据溯源技术以及APT攻击检测技术。
4、大数据隐私保护技术
单选题9.2
以下()是针对第三方数据收集者的隐私处理操作的“非可信性”提出的
A.安全多方计算B.数据扰动
C.中心化差分隐私D.本地化差分隐私
答案:D
单选题9.6
()对数据进行变换,使其中敏感信息被隐藏,仅保留数据的统计学特征
A.安全多方计算B.数据扰动
C.随机化操作D.数据脱敏
答案:B
简述题9.4
大数据隐私保护技术有哪些?
目前应用最广泛的隐私保护技术包括:安全多方计算、数据扰动、差分隐私(含中心化与本地化)、数据脱敏、同态加密以及可搜索加密等技术。
在大数据环境下,隐私保护技术日益成为数据安全领域的重要研究方向。为防止敏感信息泄露,同时保障数据的可用性,多种隐私保护方法被提出并广泛应用,主要包括数据隐藏、数据脱敏、数据发布匿名化以及基于差分隐私的数据发布等技术。
数据发布匿名技术是将匿名机制应用于公开发布的数据集中,旨在保持数据可分析性的同时,切断数据记录与特定个体之间的直接关联。该技术涉及多个核心概念:标识符(如姓名、身份证号等可直接识别个人的信息)、准标识符集(如年龄、性别、邮编等组合后可能间接识别个体的一组属性)、链式攻击(利用发布数据与外部信息进行关联推理以获取隐私)以及数据泛化(用更抽象的高层类别替代具体值,例如将年龄“25”泛化为“20-30”)。常见的实现方式包括k-匿名、l-diversity和m-invariance等模型。其中,k-匿名通过数据泛化处理,确保每个准标识符组合至少对应k条不同的记录,从而降低个体被唯一识别的风险。

基于差分隐私的数据发布技术是一种源于密码学的强隐私保障手段,其核心思想是在统计查询或数据发布过程中引入可控的随机噪声,使得查询结果不依赖于任何单一个体的存在与否,从而保护个体隐私。该技术能有效抵御背景知识攻击,并保证个体隐私泄露的概率不超过预设阈值。根据数据扰动发生的阶段不同,可分为两类:一是中心化差分隐私,即由可信第三方收集各客户端的原始数据,在数据中心统一进行噪声添加后再发布;二是本地化差分隐私,适用于数据收集方不可信的场景,用户先在本地对自身数据施加差分隐私扰动,再上传至数据中心进行汇总分析,进一步增强了隐私安全性。

数据隐藏技术主要面向数据挖掘过程中的隐私防护问题,在不影响数据分析效用的前提下,防范因挖掘算法导致的隐私暴露风险。其关键技术路径包括数据扰动与安全多方计算。数据扰动通过对原始数据进行变换或加入随机噪声来隐藏真实数值,常见形式有记录间的数据交换(保持整体统计特征不变)和随机化处理(保留分布特性但掩盖实际值)。安全多方计算则允许多个参与方在无须依赖可信第三方的情况下协同完成计算任务,各方仅获得约定的输出结果,而不会获知其他方的输入数据,具备输入隐私性、计算正确性和去中心化的优势。

数据脱敏是指对已识别的敏感信息依据特定规则进行变形处理,以实现对个人隐私或商业机密的有效保护。该技术常用于测试环境或开发场景中,用以替代真实的敏感数据,如身份证号码、手机号、银行账户等。脱敏前需首先识别出数据中的敏感字段,通常借助自动化识别工具或机器学习算法构建敏感信息知识库,并结合规则匹配技术定位潜在的敏感内容,随后应用掩码、哈希、替换或截断等方式对其进行变形处理,确保数据在保留一定业务功能的同时无法还原原始敏感信息。



雷达卡


京公网安备 11010802022788号







