Python:使用 jionlp和cpca 实现国内地址文本解析

2024-03-22 19:20

本文主要是介绍Python:使用 jionlp和cpca 实现国内地址文本解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

目录

    • 使用 jionlp解析国内地址文本
    • 使用 cpca 实现解析国内地址文本
    • 总结

使用 jionlp解析国内地址文本

jionlp: 中文 NLP 预处理、解析工具包,准确、高效、易用

  • github: https://github.com/dongrixinyu/JioNLP
  • 文档:http://www.jionlp.com/

使用示例

import jsonimport jionlp as jiolst = ['四川省成都市武侯区红牌楼街19号红星大厦9楼2号','杭州市滨江区网商路599号','东城区和平里街道','上海市徐汇区xx小区'
]for text in lst:res = jio.parse_location(text)print(json.dumps(res, ensure_ascii=False, indent=2))

解析结果

{"province": "四川省","city": "成都市","county": "武侯区","detail": "红牌楼街19号红星大厦9楼2号","full_location": "四川省成都市武侯区红牌楼街19号红星大厦9楼2号","orig_location": "四川省成都市武侯区红牌楼街19号红星大厦9楼2号"
}
{"province": "浙江省","city": "杭州市","county": "滨江区","detail": "网商路599号","full_location": "浙江省杭州市滨江区网商路599号","orig_location": "杭州市滨江区网商路599号"
}
{"province": "北京市","city": "北京市","county": "东城区","detail": "和平里街道","full_location": "北京市东城区和平里街道","orig_location": "东城区和平里街道"
}
{"province": "上海市","city": "上海市","county": "徐汇区","detail": "xx小区","full_location": "上海市徐汇区xx小区","orig_location": "上海市徐汇区xx小区"
}

使用 cpca 实现解析国内地址文本

cpca:一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块

目前仅仅支持python3

github: https://github.com/DQinYuan/chinese_province_city_area_mapper

import jsonimport cpcalst = ['四川省成都市武侯区红牌楼街19号红星大厦9楼2号','杭州市滨江区网商路599号','东城区和平里街道','上海市徐汇区xx小区'
]df = cpca.transform(lst)
print(json.dumps(df.to_dict(), ensure_ascii=False, indent=2))
     省    市    区               地址  adcode
0  四川省  成都市  武侯区  红牌楼街19号红星大厦9楼2号  510107
1  浙江省  杭州市  滨江区          网商路599号  330108
2  北京市  市辖区  东城区            和平里街道  110101
3  上海市  市辖区  徐汇区             xx小区  310104

转为json数据

{"省": {"0": "四川省","1": "浙江省","2": "北京市","3": "上海市"},"市": {"0": "成都市","1": "杭州市","2": "市辖区","3": "市辖区"},"区": {"0": "武侯区","1": "滨江区","2": "东城区","3": "徐汇区"},"地址": {"0": "红牌楼街19号红星大厦9楼2号","1": "网商路599号","2": "和平里街道","3": "xx小区"},"adcode": {"0": "510107","1": "330108","2": "110101","3": "310104"}
}

总结

通过比对,发现两者的解析结果相差不是太大

库名star
JioNLP2.9K
cpca1.6K

这篇关于Python:使用 jionlp和cpca 实现国内地址文本解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/836037

相关文章

基于Python编写一个git自动上传的脚本(打包成exe)

《基于Python编写一个git自动上传的脚本(打包成exe)》这篇文章主要为大家详细介绍了如何基于Python编写一个git自动上传的脚本并打包成exe,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录前言效果如下源码实现利用pyinstaller打包成exe利用ResourceHacker修改e

Python在二进制文件中进行数据搜索的实战指南

《Python在二进制文件中进行数据搜索的实战指南》在二进制文件中搜索特定数据是编程中常见的任务,尤其在日志分析、程序调试和二进制数据处理中尤为重要,下面我们就来看看如何使用Python实现这一功能吧... 目录简介1. 二进制文件搜索概述2. python二进制模式文件读取(rb)2.1 二进制模式与文本

Python中Tkinter GUI编程详细教程

《Python中TkinterGUI编程详细教程》Tkinter作为Python编程语言中构建GUI的一个重要组件,其教程对于任何希望将Python应用到实际编程中的开发者来说都是宝贵的资源,这篇文... 目录前言1. Tkinter 简介2. 第一个 Tkinter 程序3. 窗口和基础组件3.1 创建窗

基于C++的UDP网络通信系统设计与实现详解

《基于C++的UDP网络通信系统设计与实现详解》在网络编程领域,UDP作为一种无连接的传输层协议,以其高效、低延迟的特性在实时性要求高的应用场景中占据重要地位,下面我们就来看看如何从零开始构建一个完整... 目录前言一、UDP服务器UdpServer.hpp1.1 基本框架设计1.2 初始化函数Init详解

Java中Map的五种遍历方式实现与对比

《Java中Map的五种遍历方式实现与对比》其实Map遍历藏着多种玩法,有的优雅简洁,有的性能拉满,今天咱们盘一盘这些进阶偏基础的遍历方式,告别重复又臃肿的代码,感兴趣的小伙伴可以了解下... 目录一、先搞懂:Map遍历的核心目标二、几种遍历方式的对比1. 传统EntrySet遍历(最通用)2. Lambd

Django调用外部Python程序的完整项目实战

《Django调用外部Python程序的完整项目实战》Django是一个强大的PythonWeb框架,它的设计理念简洁优雅,:本文主要介绍Django调用外部Python程序的完整项目实战,文中通... 目录一、为什么 Django 需要调用外部 python 程序二、三种常见的调用方式方式 1:直接 im

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

C#中checked关键字的使用小结

《C#中checked关键字的使用小结》本文主要介绍了C#中checked关键字的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录✅ 为什么需要checked? 问题:整数溢出是“静默China编程”的(默认)checked的三种用

SpringBoot全局异常拦截与自定义错误页面实现过程解读

《SpringBoot全局异常拦截与自定义错误页面实现过程解读》本文介绍了SpringBoot中全局异常拦截与自定义错误页面的实现方法,包括异常的分类、SpringBoot默认异常处理机制、全局异常拦... 目录一、引言二、Spring Boot异常处理基础2.1 异常的分类2.2 Spring Boot默