jsoup解析网络HTML页,基本的使用方法

2024-09-07 02:08

本文主要是介绍jsoup解析网络HTML页,基本的使用方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这两天因为获得网页上的数据而纠结,研究了Json、Jsoup两种获取数据的方法

今天总算小有结果,Jsoup的基本用法学会了,把我的总结发到这里,希望对正在学习android的同学有帮助,我也是个初学者,还在努力中,不废话,上代码,(注:我对android的专业术语理解的不是太透彻,有不足请指点,跪谢!)


package com.android.web;import java.io.BufferedInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.apache.http.util.ByteArrayBuffer;
import org.apache.http.util.EncodingUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import android.app.Activity;
import android.os.Bundle;
import android.view.View;
import android.view.View.OnClickListener;
import android.widget.ListView;
import android.widget.SimpleAdapter;public class _GetWebResoureActivity extends Activity {Document doc;@Overridepublic void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.main);findViewById(R.id.button1).setOnClickListener(new OnClickListener() {@Overridepublic void onClick(View v) {load();}});}protected void load() {try {/*** URL:需要解析的网址,延迟5秒钟*/doc = Jsoup.parse(new URL("http://www.pkushutong.com"), 5000);} catch (MalformedURLException e1) {e1.printStackTrace();} catch (IOException e1) {e1.printStackTrace();}/*** 通过键值对获取数据*/List<Map<String, String>> list = new ArrayList<Map<String, String>>();/*** Elements:获得html页class样式的标签,getElementsByClass(class样式名称)*/Elements es = doc.getElementsByClass("home-box-class");/*** 遍历html页的源码*/for (Element e : es) {Map<String, String> map = new HashMap<String, String>();/*** title:通过html里的标签,把a标签里的内容获取到*/map.put("title", e.getElementsByTag("p").text());/*** href:链接页的名称*/map.put("href", "http://www.pkushutong.com"+ e.getElementsByTag("a").attr("href"));list.add(map);}ListView listView = (ListView) findViewById(R.id.listView1);listView.setAdapter(new SimpleAdapter(this, list, android.R.layout.simple_list_item_2,new String[] { "title","href" }, new int[] {android.R.id.text1,android.R.id.text2}));}/*** @param urlString* @return*/public String getHtmlString(String urlString) {try {URL url = null;url = new URL(urlString);URLConnection ucon = null;ucon = url.openConnection();InputStream instr = null;instr = ucon.getInputStream();BufferedInputStream bis = new BufferedInputStream(instr);ByteArrayBuffer baf = new ByteArrayBuffer(500);int current = 0;while ((current = bis.read()) != -1) {baf.append((byte) current);}return EncodingUtils.getString(baf.toByteArray(), "gbk");} catch (Exception e) {return "";}}
}

这里的代码很简单,就是通过方法寻找标签来获取标签对应的内容

注:这里强调一下,需要导入jsoup-1.6.1.jar包,没有这个包无法运行程序

源码下载地址:http://download.csdn.net/detail/u013415353/8389865

这篇关于jsoup解析网络HTML页,基本的使用方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143750

相关文章

Go语言使用slices包轻松实现排序功能

《Go语言使用slices包轻松实现排序功能》在Go语言开发中,对数据进行排序是常见的需求,Go1.18版本引入的slices包提供了简洁高效的排序解决方案,支持内置类型和用户自定义类型的排序操作,本... 目录一、内置类型排序:字符串与整数的应用1. 字符串切片排序2. 整数切片排序二、检查切片排序状态:

MyBatis分页插件PageHelper深度解析与实践指南

《MyBatis分页插件PageHelper深度解析与实践指南》在数据库操作中,分页查询是最常见的需求之一,传统的分页方式通常有两种内存分页和SQL分页,MyBatis作为优秀的ORM框架,本身并未提... 目录1. 为什么需要分页插件?2. PageHelper简介3. PageHelper集成与配置3.

CentOS7增加Swap空间的两种方法

《CentOS7增加Swap空间的两种方法》当服务器物理内存不足时,增加Swap空间可以作为虚拟内存使用,帮助系统处理内存压力,本文给大家介绍了CentOS7增加Swap空间的两种方法:创建新的Swa... 目录在Centos 7上增加Swap空间的方法方法一:创建新的Swap文件(推荐)方法二:调整Sww

python如何下载网络文件到本地指定文件夹

《python如何下载网络文件到本地指定文件夹》这篇文章主要为大家详细介绍了python如何实现下载网络文件到本地指定文件夹,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下...  在python中下载文件到本地指定文件夹可以通过以下步骤实现,使用requests库处理HTTP请求,并结合o

QT6中绘制UI的两种方法详解与示例代码

《QT6中绘制UI的两种方法详解与示例代码》Qt6提供了两种主要的UI绘制技术:​​QML(QtMeta-ObjectLanguage)​​和​​C++Widgets​​,这两种技术各有优势,适用于不... 目录一、QML 技术详解1.1 QML 简介1.2 QML 的核心概念1.3 QML 示例:简单按钮

使用Java将实体类转换为JSON并输出到控制台的完整过程

《使用Java将实体类转换为JSON并输出到控制台的完整过程》在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用JSON格式,用Java将实体类转换为J... 在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用j

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

Python logging模块使用示例详解

《Pythonlogging模块使用示例详解》Python的logging模块是一个灵活且强大的日志记录工具,广泛应用于应用程序的调试、运行监控和问题排查,下面给大家介绍Pythonlogging模... 目录一、为什么使用 logging 模块?二、核心组件三、日志级别四、基本使用步骤五、快速配置(bas

SQL 外键Foreign Key全解析

《SQL外键ForeignKey全解析》外键是数据库表中的一列(或一组列),用于​​建立两个表之间的关联关系​​,外键的值必须匹配另一个表的主键(PrimaryKey)或唯一约束(UniqueCo... 目录1. 什么是外键?​​ ​​​​2. 外键的语法​​​​3. 外键的约束行为​​​​4. 多列外键​

CSS3 布局样式及其应用举例

《CSS3布局样式及其应用举例》CSS3的布局特性为前端开发者提供了无限可能,无论是Flexbox的一维布局还是Grid的二维布局,它们都能够帮助开发者以更清晰、简洁的方式实现复杂的网页布局,本文给... 目录深入探讨 css3 布局样式及其应用引言一、CSS布局的历史与发展1.1 早期布局的局限性1.2