Python_re_[\u4e00-\u9fa5]+_提取所有中文文本

2024-01-24 22:20

本文主要是介绍Python_re_[\u4e00-\u9fa5]+_提取所有中文文本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

提取中文文本

    • 简介
    • unicode 编码转换
    • re.findall
    • re 中 [] +
    • re.S
    • [\u4e00-\u9fa5]+ 提取中文案例

简介

\u4e00\u9fa5unicode 编码,正好是中文编码开头和结尾对应的数值。

[\u4e00-\u9fa5]+re.findall 中可用来找出文本中所有中文。

unicode 编码转换

>>> '\u4e00'.encode().decode()  #unicode码转换成字符
'一'
>>> '\u9fa5'.encode().decode()
'龥'

re.findall

pic1

>>> import re>>> re.findall(r'[a-z]+', 'which foot or hand fell fastest')
['which', 'foot', 'or', 'hand', 'fell', 'fastest']>>> re.findall(r'[0-9]', 'qfqefqe')
[]

re 中 [] +

[],用于表示一个字符集合。 -,在 [] 中表示字符范围。
pic2
+,对它前面的匹配式重复1到无数次。
pic3

re.S

pic4

[\u4e00-\u9fa5]+ 提取中文案例

>>> myText = '里面有我最宝贵的私家逆袭经验,全都毫无保留分享给你,比如优质书单和阅读方法推荐,理财经验技巧分享,哑巴英语变成英语达人的秘诀、自律长达10年的独门诀窍、连续高效学习工作10个小时的专注技巧…… 我还会每天分享一篇优质成长干货,如果你不甘于平庸,我就在那边等你,陪你一起精进噢~  分享35个超炫酷好玩的网站: 有哪些能玩上一天的网站? 推荐让你能轻松消遣时间的良心app: 你手机最消遣时间的软件是什么? 强烈推荐35个让你颜值爆表的小技巧: 如何在半年内提高颜值?'
>>> cut_text = re.findall('[\u4e00-\u9fa5]+', myText, re.S)
>>> cut_text
['里面有我最宝贵的私家逆袭经验', '全都毫无保留分享给你', '比如优质书单和阅读方法推荐', '理财经验技巧分享', '哑巴英语变成英语达人的秘诀', '自律长达', '年的独门诀窍', '连续高效学习工作', '个小时的专注技巧', '我还会每天分享一篇优质成长干货', '如果你不甘于平庸', '我就在那边等你', '陪你一起精进噢', '分享', '个超炫酷好玩的网站', '有哪些能玩上一天的网站', '推荐让你能轻松消遣时间的良心', '你手机最消遣时间的软件是什么', '强烈推荐', '个让你颜值爆表的小技巧', '如何在半年内提高颜值']
>>> ' '.join(cut_text)
'里面有我最宝贵的私家逆袭经验 全都毫无保留分享给你 比如优质书单和阅读方法推荐 理财经验技巧分享 哑巴英语变成英语达人的秘诀 自律长达 年的独门诀窍 连续高效学习工作 个小时的专注技巧 我还会每天分享一篇优质成长干货 如果你不甘于平庸 我就在那边等你 陪你一起精进噢 分享 个超炫酷好玩的网站 有哪些能玩上一天的网站 推荐让你能轻松消遣时间的良心 你手机最消遣时间的软件是什么 强烈推荐 个让你颜值爆表的小技巧 如何在半年内提高颜值'

这篇关于Python_re_[\u4e00-\u9fa5]+_提取所有中文文本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/641188

相关文章

Python程序打包exe,单文件和多文件方式

《Python程序打包exe,单文件和多文件方式》:本文主要介绍Python程序打包exe,单文件和多文件方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python 脚本打成exe文件安装Pyinstaller准备一个ico图标打包方式一(适用于文件较少的程

Macos创建python虚拟环境的详细步骤教学

《Macos创建python虚拟环境的详细步骤教学》在macOS上创建Python虚拟环境主要通过Python内置的venv模块实现,也可使用第三方工具如virtualenv,下面小编来和大家简单聊聊... 目录一、使用 python 内置 venv 模块(推荐)二、使用 virtualenv(兼容旧版 P

python如何生成指定文件大小

《python如何生成指定文件大小》:本文主要介绍python如何生成指定文件大小的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python生成指定文件大小方法一(速度最快)方法二(中等速度)方法三(生成可读文本文件–较慢)方法四(使用内存映射高效生成

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

Python使用Code2flow将代码转化为流程图的操作教程

《Python使用Code2flow将代码转化为流程图的操作教程》Code2flow是一款开源工具,能够将代码自动转换为流程图,该工具对于代码审查、调试和理解大型代码库非常有用,在这篇博客中,我们将深... 目录引言1nVflRA、为什么选择 Code2flow?2、安装 Code2flow3、基本功能演示

基于Python+PyQt5打造一个跨平台Emoji表情管理神器

《基于Python+PyQt5打造一个跨平台Emoji表情管理神器》在当今数字化社交时代,Emoji已成为全球通用的视觉语言,本文主要为大家详细介绍了如何使用Python和PyQt5开发一个功能全面的... 目录概述功能特性1. 全量Emoji集合2. 智能搜索系统3. 高效交互设计4. 现代化UI展示效果

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.