大数据测试方法--最近的研究热点之一

2024-05-11 10:38

本文主要是介绍大数据测试方法--最近的研究热点之一,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.功能性测试 

      大数据功能主要涉及系统实现面向大数据分析应用的POSIX API,包括文件读取与访问控制,元数据操作,锁操作等功能;

大数据分析系统的POSIX语义不同,实现的文件系统API也不同,功能测试要覆盖到大数据系统涉及实现的API和功能点;

功能测试工作量大,应该重点考虑应用自动化测试方法进行,同时结合手动测试补充,自动化工具推荐ltp,fstest和locktests。

      在多个节点上处理大数据的过程中,存在由于‘无用数据’和数据质量问题带来的各种问题。大数据功能测试主要用以识别

由于编码错误或节点配置错误带来的数据问题。

    其包括以下几个阶段:

a.数据导入/预处理验证阶段

       根据具体的应用背景和业务需求,各种数据源如网络日志,物联网,社会网络及互联网文本和文件等被按需加载到HDFS

中待处理。在这个过程可能会由于不正确或不复制,存储而导致的错误数据,对于这种情况,可采用以下方式进行测试:

1.输入文件与源文件进行比对,保证数据的一致性;2.根据数据需求来保证获取数据的准确性;3.验证文件被正确的加载进HDFS,

且被分割,复制到不同的数据节点中。


b.MapReduce数据输出验证阶段

      当数据加载进行HDFS后,mapreduce开始对来自不同数据源的数据进行处理。在这个过程中可能会出现mapreduce处理过程中

的编码问题,如在单一节点上运行正确,在多个节点上运行不正确的问题,包括不正确的聚合,节点配置,输出格式等。针对于这个

阶段的问题,可采用以下验证手段:1.验证梳理数据处理正常完成,输出文件正常得到;2.在单个节点上验证大数据的业务逻辑,进

而在多节点上进行相同验证;3.验证mapreduce处理过程的key/value对是否正确生产;4.在reduce过程结束后验证数据的聚集合并

是否正确;5.通过源文件验证输出数据来保证数据处理正确完成;5.按照大数据业务所需,验证输出数据文件格式是否符合要求。


c.验证大数据ETL到数据仓库

     当mapreduce过程结束后,产生的数据输出文件讲被按需移至数据仓库或其它的事务型系统.在此过程中,可能会由于不正确地应用

转换规则,从HDFS中提取的数据不完全而带来问题。针对于这个阶段的问题可采用以下方法:1.验证转换规则是否正确应用;2.通过

比较目标表数据和HDFS文件数据来验证是否有数据损坏;3.验证目标系统数据加载是否成功;4.验证目标系统的数据完整性。


d.验证分析报告

     从数据仓库或者hive中得到的数据,可通过报表工具得到分析报告;这个过程可能会产生报表定义不能达到要求的报表数据问题;在

这个过程中可通过查询来验证报表是否满足业务要求。


二.非功能性测试

      由于大数据面向具体行业的应用,除了功能性测试,在整个大数据处理框架下需要进行非功能性测试,以下几种;

a.性能测试

       性能是评估一个大数据分析系统的最为关键的维度,大数据系统性能主要包括吞吐量,任务完工时间,内存利用率等多个指标,可

反应大数据分析平台的处理能力,资源利用能力等性能。可通过hadoop性能监控器来监测运行状态性能指标和瓶颈问题,性能测试采

用自动化化方式进行,测试系统在不同负载情况下的性能.


b.容错性测试

       可从部分失效中自动恢复,而且不会验证的影响整体性能,特别地,当故障发生时,大数据分析系统应该在进行恢复的同时继续以

可接受的方式进行操作,在发生错误时某种程度上可以继续操作,需根据应用场景来设计解决方案和具体部署,然后手动测试。


c.可用性测试

       高可用性已是大数据分析不可或缺的特性之一,从而保证数据应用业务的连续性.大数据高可用性对很多应用非常关键,需要严格进行

测试和验证,以手动测试为主.


d.扩展性测试

       弹性扩展能力对于大数据时代的文件系统尤其重要,文件系统扩展性测试主要包括测试系统弹性扩展能力(扩展/回缩)及扩展系统带来

的性能影响,验证是否具有线性扩展能力,以手动测试为主.


e.稳定性测试

        大数据分析系统通常是不间断长期运行,稳定性的重要性不言而喻,稳定测试主要验证系统在长时间(7/30/180/365*24)允许下,系统

是否仍然能够正常运行,功能是否正常.稳定性测试通常采用自动化方式进行,LTP,10ZONE,POSTMARK,FIO等工具对测试系统产生

负载,同时需要验证功能.


f.部署方式测试

          大数据具备scale-out的特点,能够构建大规模,高性能的文件系统集群。针对不同应用和解决方案,文件系统部署方式会有显著不同;

部署方式测试需要测试不同场景下的系统部署方式,包括自动安装配置,集群规模,硬件配置(服务器,存储,网络),自动负载均衡等,这部分

测试不大可能进行自动化测试,需要根据应用场景来设计解决方案和具体部署,再进行手动测试.


g.数据一致性测试

         这里的数据一致性是指文件系统中的数据与从外部写入前的数据保持一致,即写入数据与读出数据始终是一致的.数据一致性能够表明

文件系统可保证数据的完整性,不会导致数据丢失或数据错误,这是文件系统最基本的功能,测试可用diff,md5sum编写脚本自动化测试,

LTP也提供了数据一致性的测试工具.


h.压力测试

          大数据分析系统的负载能力是存在上限的,系统过载时,系统就可能存在性能下降,功能异常,拒绝访问等问题。压力测试是验证系统

造大压力下,包括数据多客户端,高OPS压力,高IOPS/吞吐量压力,系统是否仍然能够正常运行,功能是否正常,系统资源消耗情况,从而

为大数据运营提供依据。

     


这篇关于大数据测试方法--最近的研究热点之一的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/979297

相关文章

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

Spring Boot从main方法到内嵌Tomcat的全过程(自动化流程)

《SpringBoot从main方法到内嵌Tomcat的全过程(自动化流程)》SpringBoot启动始于main方法,创建SpringApplication实例,初始化上下文,准备环境,刷新容器并... 目录1. 入口:main方法2. SpringApplication初始化2.1 构造阶段3. 运行阶

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数,和可以安装的扩展函数

Java中Arrays类和Collections类常用方法示例详解

《Java中Arrays类和Collections类常用方法示例详解》本文总结了Java中Arrays和Collections类的常用方法,涵盖数组填充、排序、搜索、复制、列表转换等操作,帮助开发者高... 目录Arrays.fill()相关用法Arrays.toString()Arrays.sort()A