php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200

2023-11-08 17:40

本文主要是介绍php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

用php抓取页面,用正则表达式 获取信息,整理到数组中

// 1.抓取目标网站分析,通过 f12 分析加截的js文件及 DOM结构里寻找 信息列表,通常是json数据格式,包括 api接口文件,js文件,以及script 标签中保存的json数据。

// 2. 直接抓取html文档,通过 css 标签 分析数据格式,用正则表达式过滤目标信息,并进行目标数据整理,包括 标签,标题,内容,图片,链接等信息,

// 3 整理获取到的字符串,

实例

header("Content-Type: text/html;charset=utf8");

$url = 'https://www.jd.com/';

$ch = curl_init();

// 创建一个新cURL资源

curl_setopt($ch, CURLOPT_URL, $url);

// 设置URL

curl_setopt($ch, CURLOPT_TIMEOUT, 30);

// 设置超时限制防止死循环

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

// 爬取重定向页面

curl_setopt($ch, CURLOPT_AUTOREFERER, 1);

// 自动设置Referer,防止盗链

// curl_setopt($ch, CURLOPT_POST, 1);

// 发送一个常规的Post请求

// curl_setopt($ch, CURLOPT_POSTFIELDS, $data);

// Post提交的数据包

curl_setopt($ch, CURLOPT_HEADER, 0);

// 显示返回的Header区域内容

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 要求结果保存到字符串中还是输出到屏幕上

// 禁用SSL证书的验证,就可以解决HTPPS获取不到的问题

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);

// 对认证证书来源的检查

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);

// 从证书中检查SSL加密算法是否存在

// curl_setopt($ch, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_1_1);

// 默认值,让 cURL 自己判断使用哪个版本。 (强制使用 HTTP/1.1)。

// curl_setopt($ch, CURLOPT_USERAGENT, 'Data');

// 在HTTP请求中包含一个"User-Agent: "头的字符串。

$html = curl_exec($ch);

// 运行cURL,请求URL,把结果复制给变量

if (curl_errno($ch)) {

echo 'Errno' . curl_error($curl);

//捕抓异常

}

curl_close($ch);

// 关闭cURL连接

// 用正则表达式 匹配cate_menu_lk 开头的 信息到数组

$pattem = '/(cate_menu_lk)(.*)(?)/';

preg_match_all($pattem, $html, $match);

// 整理获取到的字符串,

foreach ($match[2] as $v) {

//  获取/后面的内容

$v = strstr($v, '/');

//  去掉 /

$v = ltrim($v, '/');

//  用"> 分割字符串

$v = explode('">', $v);

echo '商品名称:' . $v[1] . '网址:' . $v[0] . '
';

}

运行实例 »

点击 "运行实例" 按钮查看在线实例

200cfae2888e72f27553cf72979956ad.png

这篇关于php获取京东列表,1018 获取京东商品列表和网址 20191018 2000-2200的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/371448

相关文章

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理(如 Redis)采用滑动

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,:本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可

SpringBoot 获取请求参数的常用注解及用法

《SpringBoot获取请求参数的常用注解及用法》SpringBoot通过@RequestParam、@PathVariable等注解支持从HTTP请求中获取参数,涵盖查询、路径、请求体、头、C... 目录SpringBoot 提供了多种注解来方便地从 HTTP 请求中获取参数以下是主要的注解及其用法:1

Python进阶之列表推导式的10个核心技巧

《Python进阶之列表推导式的10个核心技巧》在Python编程中,列表推导式(ListComprehension)是提升代码效率的瑞士军刀,本文将通过真实场景案例,揭示列表推导式的进阶用法,希望对... 目录一、基础语法重构:理解推导式的底层逻辑二、嵌套循环:破解多维数据处理难题三、条件表达式:实现分支

把Python列表中的元素移动到开头的三种方法

《把Python列表中的元素移动到开头的三种方法》在Python编程中,我们经常需要对列表(list)进行操作,有时,我们希望将列表中的某个元素移动到最前面,使其成为第一项,本文给大家介绍了把Pyth... 目录一、查找删除插入法1. 找到元素的索引2. 移除元素3. 插入到列表开头二、使用列表切片(Lis

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

C++11范围for初始化列表auto decltype详解

《C++11范围for初始化列表autodecltype详解》C++11引入auto类型推导、decltype类型推断、统一列表初始化、范围for循环及智能指针,提升代码简洁性、类型安全与资源管理效... 目录C++11新特性1. 自动类型推导auto1.1 基本语法2. decltype3. 列表初始化3

Python获取浏览器Cookies的四种方式小结

《Python获取浏览器Cookies的四种方式小结》在进行Web应用程序测试和开发时,获取浏览器Cookies是一项重要任务,本文我们介绍四种用Python获取浏览器Cookies的方式,具有一定的... 目录什么是 Cookie?1.使用Selenium库获取浏览器Cookies2.使用浏览器开发者工具

Java获取当前时间String类型和Date类型方式

《Java获取当前时间String类型和Date类型方式》:本文主要介绍Java获取当前时间String类型和Date类型方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录Java获取当前时间String和Date类型String类型和Date类型输出结果总结Java获取

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +