Python分析网页神器pyquery

2024-03-11 04:18

本文主要是介绍Python分析网页神器pyquery,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于pyquery

相信做web的没有不知道jQuery的。它是那么的方便,功能强大。 它的一大特点就是它的选择器。
pyquery是一个模仿jquery的python编写的分析网页的类库。它的接口完全模仿了jquery。

pyquery的文档

pyquery文档

测试

import urllib
from pyquery import PyQuery as pq
import codecs# fetch page
print 'fetch page...'
url = 'http://www.7dsw.com/toplastupdate/1.html'
resp = urllib.urlopen(url)
page = resp.read()
page = page.decode('gbk')
fetch page...
doc = pq(page)
doc
[<html>]
wanted = doc('a')
wanted
[<a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.first>, <a.pgroup>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a>, <a.next>, <a.ngroup>, <a.last>]
d = [i.attr('href') for i in wanted.items()]
d
['#',u"javascript:window.external.addFavorite('http://www.7dsw.com','7\u5ea6\u4e66\u5c4b_\u4e66\u53cb\u6700\u503c\u5f97\u6536\u85cf\u7684\u7f51\u7edc\u5c0f\u8bf4\u9605\u8bfb\u7f51')",'http://www.7dsw.com','/newmessage.php?tosys=1','/jifen.html','http://www.7dsw.com/','/modules/article/bookcase.php','http://www.7dsw.com/sort1/1.html','http://www.7dsw.com/sort2/1.html','http://www.7dsw.com/sort3/1.html','http://www.7dsw.com/sort4/1.html','http://www.7dsw.com/sort5/1.html','http://www.7dsw.com/sort6/1.html','/quanben/','/toplastupdate/1.html','http://www.7dsw.com/book/17/17870/','http://www.7dsw.com/book/17/17870/11409157.html','http://www.7dsw.com/book/2/2827/','http://www.7dsw.com/book/2/2827/11409156.html','http://www.7dsw.com/book/18/18732/','http://www.7dsw.com/book/18/18732/11409155.html','http://www.7dsw.com/book/33/33268/','http://www.7dsw.com/book/33/33268/11409154.html','http://www.7dsw.com/book/27/27876/','http://www.7dsw.com/book/27/27876/11409150.html','http://www.7dsw.com/book/4/4876/','http://www.7dsw.com/book/4/4876/11409145.html','http://www.7dsw.com/book/33/33261/','http://www.7dsw.com/book/33/33261/11409144.html','http://www.7dsw.com/book/29/29849/','http://www.7dsw.com/book/29/29849/11409133.html','http://www.7dsw.com/book/32/32541/','http://www.7dsw.com/book/32/32541/11409132.html','http://www.7dsw.com/book/30/30083/','http://www.7dsw.com/book/30/30083/11409130.html','http://www.7dsw.com/book/15/15156/','http://www.7dsw.com/book/15/15156/11409124.html','http://www.7dsw.com/book/33/33518/','http://www.7dsw.com/book/33/33518/11409123.html','http://www.7dsw.com/book/31/31904/','http://www.7dsw.com/book/31/31904/11409115.html','http://www.7dsw.com/book/6/6807/','http://www.7dsw.com/book/6/6807/11409112.html','http://www.7dsw.com/book/30/30605/','http://www.7dsw.com/book/30/30605/11409109.html','http://www.7dsw.com/book/33/33169/','http://www.7dsw.com/book/33/33169/11409107.html','http://www.7dsw.com/book/6/6415/','http://www.7dsw.com/book/6/6415/11409101.html','http://www.7dsw.com/book/30/30440/','http://www.7dsw.com/book/30/30440/11409099.html','http://www.7dsw.com/book/28/28703/','http://www.7dsw.com/book/28/28703/11409096.html','http://www.7dsw.com/book/28/28849/','http://www.7dsw.com/book/28/28849/11409095.html','http://www.7dsw.com/book/29/29668/','http://www.7dsw.com/book/29/29668/11409093.html','http://www.7dsw.com/book/33/33460/','http://www.7dsw.com/book/33/33460/11409091.html','http://www.7dsw.com/book/33/33683/','http://www.7dsw.com/book/33/33683/11409090.html','http://www.7dsw.com/book/28/28865/','http://www.7dsw.com/book/28/28865/11409086.html','http://www.7dsw.com/book/22/22913/','http://www.7dsw.com/book/22/22913/11409085.html','http://www.7dsw.com/book/32/32568/','http://www.7dsw.com/book/32/32568/11409084.html','http://www.7dsw.com/book/26/26175/','http://www.7dsw.com/book/26/26175/11409082.html','http://www.7dsw.com/book/12/12455/','http://www.7dsw.com/book/12/12455/11409081.html','http://www.7dsw.com/book/28/28760/','http://www.7dsw.com/book/28/28760/11409079.html','http://www.7dsw.com/book/29/29305/','http://www.7dsw.com/book/29/29305/11409078.html','http://www.7dsw.com/toplastupdate/1.html','http://www.7dsw.com/toplastupdate/1.html','http://www.7dsw.com/toplastupdate/2.html','http://www.7dsw.com/toplastupdate/3.html','http://www.7dsw.com/toplastupdate/4.html','http://www.7dsw.com/toplastupdate/5.html','http://www.7dsw.com/toplastupdate/6.html','http://www.7dsw.com/toplastupdate/7.html','http://www.7dsw.com/toplastupdate/8.html','http://www.7dsw.com/toplastupdate/9.html','http://www.7dsw.com/toplastupdate/10.html','http://www.7dsw.com/toplastupdate/2.html','http://www.7dsw.com/toplastupdate/16.html','http://www.7dsw.com/toplastupdate/1056.html']

jQuery的文档

可以参考query的文档来明白pyquery的使用方式

jQuery 遍历函数
jQuery 遍历函数包括了用于筛选、查找和串联元素的方法。
函数 描述
.add() 将元素添加到匹配元素的集合中。
.andSelf() 把堆栈中之前的元素集添加到当前集合中。
.children() 获得匹配元素集合中每个元素的所有子元素。
.closest() 从元素本身开始,逐级向上级元素匹配,并返回最先匹配的祖先元素。
.contents() 获得匹配元素集合中每个元素的子元素,包括文本和注释节点。
.each() 对 jQuery 对象进行迭代,为每个匹配元素执行函数。
.end() 结束当前链中最近的一次筛选操作,并将匹配元素集合返回到前一次的状态。
.eq() 将匹配元素集合缩减为位于指定索引的新元素。
.filter() 将匹配元素集合缩减为匹配选择器或匹配函数返回值的新元素。
.find() 获得当前匹配元素集合中每个元素的后代,由选择器进行筛选。
.first() 将匹配元素集合缩减为集合中的第一个元素。
.has() 将匹配元素集合缩减为包含特定元素的后代的集合。
.is() 根据选择器检查当前匹配元素集合,如果存在至少一个匹配元素,则返回 true。
.last() 将匹配元素集合缩减为集合中的最后一个元素。
.map() 把当前匹配集合中的每个元素传递给函数,产生包含返回值的新 jQuery 对象。
.next() 获得匹配元素集合中每个元素紧邻的同辈元素。
.nextAll() 获得匹配元素集合中每个元素之后的所有同辈元素,由选择器进行筛选(可选)。
.nextUntil() 获得每个元素之后所有的同辈元素,直到遇到匹配选择器的元素为止。
.not() 从匹配元素集合中删除元素。
.offsetParent() 获得用于定位的第一个父元素。
.parent() 获得当前匹配元素集合中每个元素的父元素,由选择器筛选(可选)。
.parents() 获得当前匹配元素集合中每个元素的祖先元素,由选择器筛选(可选)。
.parentsUntil() 获得当前匹配元素集合中每个元素的祖先元素,直到遇到匹配选择器的元素为止。
.prev() 获得匹配元素集合中每个元素紧邻的前一个同辈元素,由选择器筛选(可选)。
.prevAll() 获得匹配元素集合中每个元素之前的所有同辈元素,由选择器进行筛选(可选)。
.prevUntil() 获得每个元素之前所有的同辈元素,直到遇到匹配选择器的元素为止。
.siblings() 获得匹配元素集合中所有元素的同辈元素,由选择器筛选(可选)。
.slice() 将匹配元素集合缩减为指定范围的子集。

这篇关于Python分析网页神器pyquery的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/796613

相关文章

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

MySQL 内存使用率常用分析语句

《MySQL内存使用率常用分析语句》用户整理了MySQL内存占用过高的分析方法,涵盖操作系统层确认及数据库层bufferpool、内存模块差值、线程状态、performance_schema性能数据... 目录一、 OS层二、 DB层1. 全局情况2. 内存占js用详情最近连续遇到mysql内存占用过高导致

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON: