阿里云大数据ACA及ACP复习题(121~140)

2024-01-14 20:44

本文主要是介绍阿里云大数据ACA及ACP复习题(121~140),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

121.数据清洗(Data Cleaning)是用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。下列选项中,对数据清洗描述正确的是(ABC)
A:数据清洗可以检测表中的不准确或损坏的记录
B:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据
C:数据清洗时检测出不正确的数据可以替换,修改或删除
D:数据清洗不可以纠正脏数据

解析:数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。

122.Flink在大数据处理与分析中的作用不包含(B)?
A:实时推荐
B:实时存储
C:实时反作弊
D:实时IOT数据分析

解析:Flink的功能有: 实时数仓、实时ETL、实时反作弊、 实时监测、实施推荐、实时IoT数据分析 ,Flink是实时处理引擎,不进行数据存储

123.数据采集是指使用技术手段进行(A)?
A:数据收集
B:数据存储
C:数据分析
D:数据挖掘

解析:数据采集是指对目标领域、场景的特定原始数据进行采集的过程。

124.Hadoop在底层维护多个数据副本,使应用运行稳定运作。这是Hadoop的©特点。
A:安全性
B:易扩展
C:高可靠
D:高效率

解析:“使应用运行稳定运作”体现了高可靠的特点

125.以下属于分布式文件系统的是哪个文件系统?(B)
A:FAT32
B:GFS
C:NTFS
D:EXT6

解析:GFS(Google File System)是Google公司专为满足公司需求而开发的基于Linux的可扩展的分布式文件系统,用于大型的、分布式的、对大数据进行访问和应用,成本低,应用于廉价的普通硬件上。

126.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别(D)
A:Volume规模性
B:Velocity高速性
C:Variety多样性
D:Veracity准确性
E:Value价值性

解析:大数据的 5v 特征包括容量(Volume)、速率(Velocity)、多样性(Variety)和真实性(Veracity)以及价值(Value),区别于4V(容量,速率,多样性,价值),多了一项(Veracity)准确性。

127.HDFS主要采用主从结构模型,主节点负责数据请求与元数据的保存,以下选项中哪个节点负责数据存储?(C)
A:NameNode
B:Jobtracker
C:DataNode
D:SecondaryNameNode

解析:DataNode 负责存储数据的,提供真实文件数据的存储服务。

128.下列选项中属于阿里云数据可视化产品是?(AB)
A:Quick BI
B:DataV
C:DataX
D:Data Integration

解析:数据可视化DataV是阿里云一款数据可视化应用搭建工具; Quick BI通过智能的数据分析和可视化能力帮助企业构建数据分析系统 数据集成(Data Integration) DataX是异构数据源离线同步的工具

129.数据采集的技术有许多种,下列选项中不是采集技术的是(D)
A:Sqoop采集技术
B:Flume采集技术
C:网络爬虫技术
D:MapReduce处理技术

解析:大数据的并行处理利器——MapReduce

130.随着时代的发展,业务中需要保存的数据量成倍增长,传统的文件系统已不能满足业务发展的需要,而分布式文件系统的出现可以解决以下哪个向题?(A)
A:存储扩展
B:数据压缩
C:文件查找
D:文件命名

解析:存储扩展

131.案例:当用户在国外某地进行一笔5万块的线上交易,从风控模型库中读取相应的风控模型集合中对用户的额度和交易地点进行判断,从风控数据库中拿到的用户征信信息中,用户的额度为10万,但是上次交易发生在1个小时前,且地点为国内,那么额度判断PASS,交易地点判断FAIL,那么此次交易有盗刷或者欺诈嫌疑,系统则判定此次交易失败。该案例体现了大数据在( C )领域的应用。
A:电商
B:人工智能
C:金融风险管控
D:政府决策

解析:体现了在金融风险管控的应用

132.在数据预处理过程中,数据集成的方法有三种,以下正确的是(ACD)
A:联邦数据库
B:数据删除
C:中介者
D:数据仓库

解析:数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。

133.关于HDFS的特性,下列说法错误的是?(D)
A:数据分布式存储
B:强大的跨平台兼容性
C:兼客廉价的硬件设备
D:多次写入、多次读取

解析:HDFS的模式是一次写入多次读取

134.数据分析与数据挖掘的概念是容易被混淆。下列选项中,正确描述数据分析与数据挖掘之间的关系的是?(ABC)
A:数据分析强调结果,数据挖掘强调过程
B:数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据末知的模式与规律
C:数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据
D:数据分析是输出模型或规则,根据模型应用。数据挖掘是得到己知的指标预测值,根据预测值跟业务结合,发挥数据价值

解析:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。 数据挖掘输出模型或规则,并且可相应得到模型得分或标签 数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据未知的模式与规律 数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据

135.网络爬虫由控制节点、爬虫结点、资源库构成,以下关于网络爬虫特性的描述正确的有(ABD)。
A:网络爬虫中可以有多个控制节点
B:每个控制节点下可以有多个爬虫节点
C:多个控制节点间不允许相互通信
D:多个爬虫节点间可以进行互相通信

解析:网络爬虫中可以有多个控制节点; 每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信; 控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。

136.MapReduce是一个分布式运算程序的编程框架,下面对MapReduce描述正确的是(ABD)。
A:MapReduce的核心为Map函数和Reduce函数
B:MapReduce用于大规模数据集的并行运算
C:MapReduce不需要应用开发者编写程序来实现功能
D:MapReduce设计理念就是“计算向数据靠拢”

解析:MapReduce 主要是依靠开发者通过编程来实现功能的

137.使用QuickBl进行数据可视化开发的过程中,需要了解Quick Bl的操作流程,下面哪一项属于Quick Bl正确的操作流程?(C)
A:准备工作-数据建模一连接数据源一数据可视化分析一发布共享
B:准备工作一连接数据源一数据可视化分析一数据建模一发布共享
C:准备工作一连接数据源-数据建模一数据可视化分析一发布共享
D:准备工作一数据可视化分析-连接数据源-数据建模一发布共享

解析
https://help.aliyun.com/document_detail/161417.html?spm=a2c4g.33813.0.i5
步骤一:连接数据源
步骤二:数据建模
步骤三:数据可视化分析
步骤四:发布共享

138.在进行数据预处理时,经常会遇到异常值,下列选项中处理异常值的方法有(ABC)
A:删除含有异常值的记录
B:将异常值视为缺失值,交给缺失值处理方法类处理如插补的方法
C:用平均值来修正
D:所有异常值不能删除

解析:异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。

139.图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势?( B )
A:传播速度快
B:数据更直观
C:多维展示
D:容易记忆

解析:数据更直观:图比文本或表格更加直观呈现

140.在进行数据清洗时,每个步骤有对应的注意事项。以下选项中,步骤和注意事项匹配的有 (ABCE)。
A:数据清洗时先处理缺失值、异常值和数据类型转换,最后进行重复值的处理
B:对缺失值和异常值处理时,一般根据业务需求进行填充,进行统计值填充、前/后值填充、零值填充
C:在数据清洗之前,要明确表的结构和发现需要处理的值,方便数据清洗的更彻底
D:数据量大且异常数据量也较大时,可直接删除异常数据:数据量小,则每个数据都可能影响分析结果,需要认真去对异常数据进行处理
E:确保数据表的每列都进行清洗

解析:如果总数据量较大,而异常的数据(包括缺失值和异常值)的量较少时可以选择直接删除处理,因为这并不太会影响到最终的分析结果;但是如果总数据量较小,则每个数据都可能影响这分析的结果,这时候就需要费心思去对数据进行处理(可能需要通过其他的关联表去找到想过数据进行填充)

这篇关于阿里云大数据ACA及ACP复习题(121~140)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/606455

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

linux配置podman阿里云容器镜像加速器详解

《linux配置podman阿里云容器镜像加速器详解》本文指导如何配置Podman使用阿里云容器镜像加速器:登录阿里云获取专属加速地址,修改Podman配置文件并移除https://前缀,最后拉取镜像... 目录1.下载podman2.获取阿里云个人容器镜像加速器地址3.更改podman配置文件4.使用po

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很