爬虫进阶-反爬破解9（下游业务如何使用爬取到的数据+数据和文件的存储方式）

本文主要是介绍爬虫进阶-反爬破解9（下游业务如何使用爬取到的数据+数据和文件的存储方式），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、下游业务如何使用爬取到的数据

（一）常用数据存储方案

1.百万级别数据：单机数据库，搭建和使用方便快捷，成本低

2.千万级别数据：负载均衡的多台数据库，安全和稳定

3.海量数据：大数据框架，分布式部署，承载量巨大

（二）数据库及框架

1.百万级别数据：Mysql、PostgreSQL、Mongo

2.千万级别数据：主从同步数据库，性能调优

3.大数据框架：Hbase、Elasticsearch、Hive

4.文件存储：OSS、COS、Kodo、fastDFS

（三）下游业务提取数据方式

1.数据库客户端界面筛选数据并导出

2.数据人员写代码查询数据并分析

3.大数据分析工具，例如Bi、Hadoop、spark

（四）总结

1.通常数据的存储位置，一般是已经准备指定了具体某个框架

2.爬虫开始工作前，分布式数据库的架设就要完成，并开发接口

3.数据分析人员，也需要学习编程，如Python,R,SQL

二、数据和文件存储方案：Hadoop/Hbase/Hive/Spark/OSS/FastDFS

（一）认识大数据框架

Hadoop:大数据框架，安全稳定，适合存储低频计算的大文件

Spark:基于内存的计算框架，实时计算数据

Hive:只支持SQL查询语法，处理结构化的数据

Hbase:nosql,非关系型数据库，类似mongodb

（二）认识分布式文件系统

对象存储【云产品】：方便易用容量大，但是贵

FastDFS:开源的分布式文件系统，自行搭建

HDFS:Hadoop内置的分布式文件系统，适合存储大文件

（三）低频大数据存储类型

1.框架选择：Hadoop+Hive

2.SQL查询语句，学习成本低

3.HDFS和MapReduce,对大数据有优势

（四）实时大数据计算类型

1.框架选择：Hadoop+Spark

2.Hadoop稳定，提供大数据的基础

3.Spark是运行在内存上的计算，运行速度快

（五）结构化大数据存储类型

1.框架选择：Hadoop+Hbase

2.数据是按列存储的，查询时只访问所涉及的列，速度快

3.大幅降低系统I/O，数据类型一致，可以高效压缩存储

（六）大数据文件系统和分布式文件系统

Hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大，采用了分块（切分）存储的方式；

FastDFS主要用于大中网站，为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持的比较好，不分割文件。

（七）总结

（1）大数据范围很广，通常是指Hadoop生态圈。

（2）Hadoop不是单一框架，而是有非常多组件的大数据完整方案。

（3）根据项目的需求，选择特定组件接入到Hadoop中

这篇关于爬虫进阶-反爬破解9（下游业务如何使用爬取到的数据+数据和文件的存储方式）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

爬虫进阶-反爬破解9（下游业务如何使用爬取到的数据+数据和文件的存储方式）

一、下游业务如何使用爬取到的数据

（一）常用数据存储方案

（二）数据库及框架

（三）下游业务提取数据方式

（四）总结

二、数据和文件存储方案：Hadoop/Hbase/Hive/Spark/OSS/FastDFS

（一）认识大数据框架

（二）认识分布式文件系统

（三）低频大数据存储类型

（四）实时大数据计算类型

（五）结构化大数据存储类型

（六）大数据文件系统和分布式文件系统

（七）总结

相关文章

Java中流式并行操作parallelStream的原理和使用方法

Linux join命令的使用及说明

Linux jq命令的使用解读

Linux kill正在执行的后台任务 kill进程组使用详解

Java AOP面向切面编程的概念和实现方式

详解SpringBoot+Ehcache使用示例

Java 虚拟线程的创建与使用深度解析

k8s按需创建PV和使用PVC详解

Redis 基本数据类型和使用详解

Redis中Hash从使用过程到原理说明