Python进阶编程 --- 2.MySQL、pymysql、PySpark

2024-04-16 06:28

本文主要是介绍Python进阶编程 --- 2.MySQL、pymysql、PySpark,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 第一章:SQL基础入门
      • 1.1 数据库
        • 数据库如何存储数据
      • 1.2 数据库和SQL的关系
      • 1.3 MySQL版本
      • 1.4 命令提示符内使用MySQL
      • 1.5 SQL概述
        • 1.5.1 SQL语言分类
        • 1.5.2 SQL语言特性
      • 1.6 DDL
          • 库管理
          • 表管理
      • 1.7 DML - 数据操作
      • 1.8 DQL - 查询和计算数据
        • 1.8.1 基础数据查询
        • 1.8.2基础数据查询 - 过滤
        • 1.8.3 分组聚合
        • 1.8.4 结果排序
        • 1.8.5 结果分页限制
      • 1.9 Python - MySQL
        • 1.9.1 pymysql
        • 1.9.2 数据插入
    • 第二章:PySpark基础入门
      • 2.1 PySpark库的安装
      • 2.2 PySpark编程步骤
      • 2.3 PySpark编程模型
      • 2.4 数据输入
        • 2.4.1 RDD对象
        • 2.4.2 Python数据容器转RDD对象
        • 2.4.3 读取文件转RDD对象
      • 2.5 数据计算
        • 2.5.1 map方法

第一章:SQL基础入门

1.1 数据库

在这里插入图片描述

数据库如何存储数据

在这里插入图片描述

1.2 数据库和SQL的关系

数据库用来存储数据,在该过程中,将会涉及:

  • 新增数据

  • 删除数据

  • 修改数据

  • 查询数据

  • 数据库、数据表的管理

SQL语言是一种对数据库、数据进行操作、管理、查询的工具。

1.3 MySQL版本

  • 社区版(免费)

  • 集群版(免费)

  • 商业版(收费)

  • 高级集群版(收费)

1.4 命令提示符内使用MySQL

打开命令提示符程序,输入:mysql -uroot -p,回车输入密码,即可进入命令行环境

  • show database; //查看有哪些数据库

  • use 数据库名 //使用某个数据库

  • show tables //查看数据库内有哪些表

  • exit //退出MySQL的命令行环境

1.5 SQL概述

SQL:结构化查询语言,用于访问和处理数据库的标准的计算机语言

1.5.1 SQL语言分类
  • 数据定义:DDL

     库的创建删除、表的删除创建等
    
  • 数据操纵:DML

      新增数据、删除数据、修改数据等
    
  • 数据控制:DCL

      新增用户、删除用户、密码修改、权限管理等
    
  • 数据查询:DQL

      基于需求查询和计算数据
    
1.5.2 SQL语言特性
  • 大小写不敏感

  • 可单行或多行书写,;号结束

  • 支持注释
    单行注释: – 注释内容(–后面要有一个空格)
    单行注释:# 注释内容

    多行注释:/* 注释内容 */
    

1.6 DDL

库管理
  • 查看数据库:SHOW DATATBASES;

  • USE 数据库名;

  • CREATE DATABASE 数据库名 [CHARSET UTF8];

  • DROP DATABASE 数据库名;

  • SELECT DATABASE();

在这里插入图片描述

表管理
  • 查看表:SHOW TABLES; # 使用前需先选择数据库

  • 删除表:DROP TABLE 表名;

                     DROP TABLE IF EXISTS 表名;
    
  • 创建表:CREATE TABLE 表名(
    列名称 列类型,
    列名称 列类型

    );

    列类型说明
    int整数
    float浮点数
    varchar(长度)文本,长度为数字,为最大长度限制
    date日期
    timestamp时间戳

在这里插入图片描述
在这里插入图片描述

1.7 DML - 数据操作

  • 插入INSERT:INSERT INTO表[(列1,列2,…,列N)] VALUES(值1,值2,…,值N) [,(值1,值2,…,值N),…,(值1,值2,…,值N)];

  • 删除DELETE:DELETE FROM 表名 [WHERE 条件判断];

  • 更新UPDATE:UPDATE 表名 SET 列=值 [WHERE 条件判断];

  • 在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

1.8 DQL - 查询和计算数据

1.8.1 基础数据查询

语法:SELECT 字段列表 |* FROM 表
在这里插入图片描述
在这里插入图片描述

1.8.2基础数据查询 - 过滤

语法:SELECT 字段列表 |* FROM 表 WHERE 条件判断

在这里插入图片描述

1.8.3 分组聚合

语法:SELECT 字段| 聚合函数 FROM 表 [WHERE 条件] GROUP BY 列

聚合函数:

  • SUM(列) 求和

  • AVG(列) 求平均值

  • MIN(列) 求最小值

  • MAX(列) 求最大值

  • COUNT(列|*) 求数量

在这里插入图片描述

1.8.4 结果排序

语法

SELECT 列|聚合函数|* FROM 表

WHERE …

GROUP BY …

ORDER BY … [ASC | DESC]
在这里插入图片描述

1.8.5 结果分页限制

语法

SELECT 列|聚合函数|* FROM 表

WHERE …

GROUP BY …

ORDER BY … [ASC | DESC]

LIMIT n[, m]

在这里插入图片描述

执行顺序:FROM->WHERE->GROUP BY与聚合函数 -> SELECT -> ORDER BY -> LIMIT

1.9 Python - MySQL

1.9.1 pymysql

基础使用

安装:pip install pymysql

创建到MySQL的数据库链接

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)print(conn.get_server_info()) # 打印MySQL数据库信息conn.close() # 关闭到数据库的链接

执行SQL语句

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("select * from student") # 用游标对象,执行SQL语句
results: tuple = cursor.fetchall() # 获取查询结果
for r in results:print(r)
conn.close() # 关闭到数据库的链接
1.9.2 数据插入

commit提交

pymysql在执行数据插入或其他产生数据更改的SQL语句时,默认是需要提交更改的,通过代码确认该更改行为

链接对象.commit()即可确认此行为

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("insert into student values(7, '小东', 20)") # 用游标对象,执行SQL语句
conn.commit() # 确认
conn.close() # 关闭到数据库的链接

自动commit

conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456",   # 密码autocommit= True     # 设置自动提交  
)

第二章:PySpark基础入门

Spark:Apache Spark是用于大规模数据处理的同一分析引擎。

Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算海量数据

PySpark是由Spark官方开发的Python语言第三方库

2.1 PySpark库的安装

安装:pip install pyspark

构建PySpark执行环境入口对象

执行环境入口对象:类 SparkContext的 类对象

from pyspark import SparkConf,SparkContext # 导包conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象print(sc.version) # 打印PySpark的运行版本sc.stop() # 停止SparkContext对象的运行

SparkContext类对象,是PySpark编程中一切功能的入口

2.2 PySpark编程步骤

PySpark编程,主要分三大步骤:

  • 数据输入:通过SparkContext类对象的成员方法完成对数据的读取操作,读取后获得RDD类对象

  • 数据处理计算:通过RDD类对象的成员方法,完成各种数据计算的需求

  • 数据输出:将处理完的RDD对象,调用各种成员方法完成写出文件、转换为list等操作

2.3 PySpark编程模型

在这里插入图片描述

  • 通过SparkContext对象完成数据输入

  • 输入数据后得到RDD对象,对RDD对象进行迭代计算

  • 最终通过RDD对象的成员方法完成数据输出

2.4 数据输入

2.4.1 RDD对象

RDD全称为:弹性分布式数据集

PySpark针对数据的处理,都以RDD对象作为载体

  • 数据存储在RDD内

  • 各类数据的计算方法,也都为RDD的成员方法

  • RDD的数据计算方法,返回值依然是RDD对象

2.4.2 Python数据容器转RDD对象

通过SparkContext对象的parallelize成员方法,将list\tuple\set\dict\str转为PySpark的RDD对象

在转换时,需注意字符串会被拆成一个个的字符,存入RDD对象中,字典仅有key会被存入RDD对象中。

from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize((1, 2, 3))
rdd3 = sc.parallelize("hello")
rdd4 = sc.parallelize({1, 2, 3})
rdd5 = sc.parallelize({"key1":1, "key2": 2})print(rdd1.collect()) # 输出RDD内容
print(rdd2.collect()) # 输出RDD内容
print(rdd3.collect()) # 输出RDD内容
print(rdd4.collect()) # 输出RDD内容
print(rdd5.collect()) # 输出RDD内容sc.stop() # 停止SparkContext对象的运行
2.4.3 读取文件转RDD对象

通过SparkContext入口对象,读取文件,构建出RDD对象

from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象
rdd = sc.textFile("E:/learn - coding/Python/2024_04_13/hello.txt")
print(rdd.collect())
sc.stop() # 停止SparkContext对象的运行

2.5 数据计算

2.5.1 map方法

PySpark的数据计算,都基于RDD对象进行的,依赖于RDD对象中内置丰富的成员方法(算子)

map算子:将RDD的数据一条条处理,返回新的RDD

语法

rdd.map(func)
# func: f:(T) -> U
# f:表示这是一个函数或方法
# (T) -> U 表示的是方法的定义
# () 表示传入参数,(T)表示传入1个参数,()表示没有传入参数
# T 泛型的代称,在这表示任意类型
# U 泛型的代称,在这表示任意类型
# -> U 表示返回值
# (T) -> U 表示这是个方法,该方法接受一个参数传入,传入参数类型不限,返回一个返回值,返回值类型不限
# (A) -> A 表示这是个方法,该方法接受一个参数传入,传入参数类型不限,返回一个返回值,返回值类型和传入参数类型一致

这篇关于Python进阶编程 --- 2.MySQL、pymysql、PySpark的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/908019

相关文章

MySQL数据库约束深入详解

《MySQL数据库约束深入详解》:本文主要介绍MySQL数据库约束,在MySQL数据库中,约束是用来限制进入表中的数据类型的一种技术,通过使用约束,可以确保数据的准确性、完整性和可靠性,需要的朋友... 目录一、数据库约束的概念二、约束类型三、NOT NULL 非空约束四、DEFAULT 默认值约束五、UN

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

Python使用Matplotlib绘制3D曲面图详解

《Python使用Matplotlib绘制3D曲面图详解》:本文主要介绍Python使用Matplotlib绘制3D曲面图,在Python中,使用Matplotlib库绘制3D曲面图可以通过mpl... 目录准备工作绘制简单的 3D 曲面图绘制 3D 曲面图添加线框和透明度控制图形视角Matplotlib

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

MySQL 多表连接操作方法(INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN)

《MySQL多表连接操作方法(INNERJOIN、LEFTJOIN、RIGHTJOIN、FULLOUTERJOIN)》多表连接是一种将两个或多个表中的数据组合在一起的SQL操作,通过连接,... 目录一、 什么是多表连接?二、 mysql 支持的连接类型三、 多表连接的语法四、实战示例 数据准备五、连接的性

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

MySQL中的分组和多表连接详解

《MySQL中的分组和多表连接详解》:本文主要介绍MySQL中的分组和多表连接的相关操作,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录mysql中的分组和多表连接一、MySQL的分组(group javascriptby )二、多表连接(表连接会产生大量的数据垃圾)MySQL中的

基于Python打造一个智能单词管理神器

《基于Python打造一个智能单词管理神器》这篇文章主要为大家详细介绍了如何使用Python打造一个智能单词管理神器,从查询到导出的一站式解决,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 项目概述:为什么需要这个工具2. 环境搭建与快速入门2.1 环境要求2.2 首次运行配置3. 核心功能使用指

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

Java并发编程之如何优雅关闭钩子Shutdown Hook

《Java并发编程之如何优雅关闭钩子ShutdownHook》这篇文章主要为大家详细介绍了Java如何实现优雅关闭钩子ShutdownHook,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 目录关闭钩子简介关闭钩子应用场景数据库连接实战演示使用关闭钩子的注意事项开源框架中的关闭钩子机制1.