阿里云大数据ACA及ACP复习题(101~120)

2024-01-08 14:28

本文主要是介绍阿里云大数据ACA及ACP复习题(101~120),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

101.阿里云DataWorks是数据上云下云的枢纽,致力于提供复杂网络环境下、丰富的 (B) 之间高速稳定的数据移动及同步能力。
A:关系型数据库
B:异构数据源
C:NosQL
D:非结构化存储

解析:DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。 https://help.aliyun.com/document_detail/113298.html?spm=a2c4g.464901.0.i5

102.Logstash是一款开源的数据收集引擎,具有实时管道处理能力。Logslash数据处理流程由几部分组成。(ABC)
A:Input
B:Filter
C:Output
D:Kibana

解析:logstash数据处理过程包括三个部分:input、filter、output

103.阿里云的云计算提供了多种服务模式,其中基础设施使用的是©
A:SaaS
B:Paas
C:laas
D:全部本地布署

解析:IaaS: Infrastructure-as-a-Service(基础设施即服务)

104.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下关于清洗内容的描述正确的是(ABC)
A:缺失值处理是由于调查、编码和录入的误差,数据中可能存在一些缺失值,需要给予适当的处理
B:异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据
C:数据类型转换是指数据类型不一致,影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,并做统一处理
D:数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列),只需要删除所有重复行

解析:缺失值处理是指由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理; 异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据; 数据类型转换是指数据类型往往会影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,在数据清洗的时候就需要对二者的数据类型进行统一处理。 重复值处理是指重复值的存在会影响数据分析和挖掘结果的准确性,所以,在数据分析和建模之前需要进行数据重复性检验,如果存在重复值,还需要进行重复值的删除。

105.在大数据生态体系的数据处理中,有两种计算引擎MapReduce与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎说法正确的是?(BD)
A:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
B:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
C:MapReduce跟Spark相比,处理速度更快
D:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算

解析:MapReduce计算框架是基于磁盘的,做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算,IO开销大,效率低,但适用于大数据量 Spark计算框架是基于内存的,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取,基于内存计算IO开销小,内存消耗大,适用于相对小数据量,计算效率要求较高的场景

106.Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的(B)领域经典算法的实现,旨在帮助开发人员更加方便快捷的实现算法,创建只能应用程序。
A:人工智能
B:机器学习
C:云计算
D:数据分析

解析:Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。

107.临近年终,小明在制作年终总结PPT时,发现表格列属性由月份、行属性计划销售额和实际销售额组成不够美观,更不够直观,如果你是小明,你会怎么做(A)。
A:插入柱状图
B:插入散点图
C:插入直方图
D:插入瀑布图

解析:数据可视化常用图表,更直观的体现数据属性,柱状图是的主要作用是将多个或者2个以上的在同一条件下,进行数据值的比较以此来判断多个数据值哪些数据值相对比较大或相对比较小

108.阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和(D)
A:画布
B:媒体
C:素材
D:分布

解析:阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和分布,每个组件都有自己的适用场景和独特优势

109.下列哪一项(D)不是机器学习深度学习领域常用的框架。
A:tensorflow
B:torch
C:sklearn
D:jupyter

解析:jupyter不是框架,是交互式python环境

110.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的(A)作用?
A:弹性能力与扩展型
B:集成AI能力
C:支持流式采集和近实时分析
D:数据存储能力

解析
https://help.aliyun.com/document_detail/27800.html 弹性能力与扩展性 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。 支持实时根据业务峰谷变化分配资源。

111.HBase依赖 ( A ) 提供消息通信机制,在Master和RegionServers之间协调、通信和共享状态。
A:Zookeeper
B:Socket
C:TCP/IP
D:ActiveMQ

解析:在HBase中,ZooKeeper在 Masters 和 RegionServers 之间协调、通信和共享状态。

112.使用阿里云DataWorks进行实时数据同步时,在单表增量实时数据同步配置的步骤是(A)。
A:创建单表实时同步节点一配置资源组一配置单表实时同步任务一提交并发布实时同步任务
B:创建单表实时同步节点一配置单表实时同步任务一配置资源组一提交并发布实时同步任务
C:创建单表实时同步节点一配置资源组一提交并发布实时同步任务一配置单表实时同步任务
D:创建单表实时同步节点一提交并发布实时同步任务一配置资源组一配置单表实时同步任务

解析:https://help.aliyun.com/document_detail/203628.html
操作流程
步骤一:创建单表实时同步节点
步骤二:配置资源组
步骤三:配置单表实时同步任务
步骤四:提交并发布实时同步任务

113.Flume是一个分布式、高可靠、高可用的服务,它是用于分布式的什么框架?(B)
A:网络数据收集
B:日志收集
C:企业业务数据收集
D:传感器数据收集

解析:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

114.K-Means是典型的基于划分的聚类算法,下列描述基于划分的概念正确的是?(C)
A:一种基于网格的具有多分辨率的聚类方法
B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类
D:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图

解析:基于划分的聚类算法通过构造一个迭代过程 来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。

115.下列关于Hadoop生态组件Flume的概念,说法正确的是?(A)
A:是Apache下的一个项目,支持在日志系统中定制各类数据发送方,用于收集数据
B:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
C:是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
D:是一个用于在Hadoop和关系数据库之间传输数据的工具

解析:ZooKeeper 是一个用于分布式应用的高性能协调服务
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具
Flume最早是Cloudera提供的日志收集系统,是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。

116.( C )指对本地资源库中,已下载的网页数据进行增量式更新,运行过程中只爬行新产生页面或内容发生变化的网页,需要对网页的重要性进行排序。
A:通用网络爬虫
B:聚集网络爬虫
C:增量式网络爬虫
D:深层网络爬虫

解析:增量式网终爬虫(Incremental Web Crawler)是指对已下载的网页采取增量式更新,只抓取新产生或者已经发生变化的网页的网络爬虫。

117.Kafka是一种高吞吐量的分布式发布订阅消息系统,一般对日志数据和实时数据进行处理,它的优点是(D)。
A:支持一个生产者
B:支持一个消费者
C:不支持分布式
D:支持broker的横向扩展

解析:Kafka 优点: 支持多个生产者和消费者; 支持broker的横向拓展;

118.在Hadoop中,HDFS组件的DataNode节点有什么作用?(B)
A:支配其它节点
B:保存数据的作用
C:管理其它节点
D:降低数据丢失的风险

解析:文件的各个 block 的具体存储管理由 datanode 节点承担。

119.下列关于回归分析的用法,描述不正确的是?(D)
A:在大数据分析中,回归分析常用于预测分析,主要研究自变量与因变量的关系
B:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
C:回归分析就是通过一定变量或一些变量的变化解释另一变量的变化
D:按因变量的多少,回归分析都只有简单回归分析

解析:按照因变量的多少,可分为简单回归分析和多重回归分析。

120.为大数据提供了技术基础,大数据为其提供用武之地。上述是哪项技术?(C)
A:内存计算机
B:网络计算机
C:云计算
D:并行计算

解析:云计算为大数据提供了技术基础,大数据为云计算提供了用武之地。

这篇关于阿里云大数据ACA及ACP复习题(101~120)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/583754

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元