前嗅ForeSpider脚本教程:脚本概述

2024-06-02 01:32

本文主要是介绍前嗅ForeSpider脚本教程:脚本概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:

 

一.ForeSpider脚本结构

 

ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。

 

1.频道

 

包括“频道脚本”。

 

2.模板

(1)模板配置

包括“模板脚本”。

(2)链接部分

包括“链接抽取脚本”、“链接过滤脚本”。

(3)数据部分

包括“数据抽取脚本”。

(4)字段部分

包括“字段取值脚本”、“字段处理脚本”。

 

二.脚本与可视化配置的关系

 

1.各部分配置可以完全使用脚本编写,不进行可视化操作;

2.同一步骤既进行了可视化操作的配置,又编写了脚本,则由脚本接管,可视化配置失效;

3.各步骤可以一部分使用脚本编写,一部分使用可视化操作,不重复的配置都有效,重复的配置以脚本优先接管。

 

三.各节点脚本之间的关系

 

1.上一操作层级的脚本配置区域可以编写涵盖其下面所有操作层级功能的脚本;

2.如果各层级之间的脚本有重复,以其中高层级步骤的脚本优先生效;

3.可以将脚本分散于各操作层级编写,也可以直接在最高操作层级(频道脚本)编写。

 

四.脚本编辑区介绍

 

第一级:频道配置-脚本配置

在“频道配置”时,通过使用系统内置的脚本语言对频道进行配置。

①选中该频道;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建频道脚本。

​【频道脚本】

 

第二级:模板脚本

 

模板脚本可以编写整个模板配置的脚本。

①选中该模板;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,即可创建模板脚本。

【模板脚本】

 

第三级:链接/数据抽取脚本

 

1.链接文本

链接脚本可以编写整个链接抽取的脚本。

①选中该链接抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”; 

③点击“新建”图标,即可创建链接脚本。

​【链接脚本】

2.数据抽取脚本

数据抽取脚本可以编写整个数据抽取的脚本。

①选中该数据抽取;

②点击“脚本窗口”,使其变为“浏览器窗口”;

③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,即可生成相应的代码区。

​【选择数据抽取脚本】

​【数据抽取脚本】

 

第四级:链接过滤、字段取值/清洗脚本

 

1.链接过滤脚本

链接过滤脚本可以编写链接地址或链接标题过滤的脚本。

①选中该链接抽取;

②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;

③可自动生成相应的“地址过滤/标题脚本"区。

​【地址过滤脚本】

​【标题过滤脚本】

2.字段取值脚本

字段取值脚本可以编写该字段取值的脚本。

①选中该字段;

②在“采集内容”处,勾选“高级取值->脚本过滤”;

③可自动生成相应的字段取值脚本区。

​【字段取值脚本】

 

3.字段处理脚本

字段处理脚本可以编写该字段数据处理的脚本。

①选中该字段;

②在“数据清洗”处,勾选“脚本处理”;

③可自动生成相应的字段处理脚本区。

​【选择字段处理脚本】

​【字段处理脚本】

这篇关于前嗅ForeSpider脚本教程:脚本概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1022662

相关文章

Java JDK1.8 安装和环境配置教程详解

《JavaJDK1.8安装和环境配置教程详解》文章简要介绍了JDK1.8的安装流程,包括官网下载对应系统版本、安装时选择非系统盘路径、配置JAVA_HOME、CLASSPATH和Path环境变量,... 目录1.下载JDK2.安装JDK3.配置环境变量4.检验JDK官网下载地址:Java Downloads

golang程序打包成脚本部署到Linux系统方式

《golang程序打包成脚本部署到Linux系统方式》Golang程序通过本地编译(设置GOOS为linux生成无后缀二进制文件),上传至Linux服务器后赋权执行,使用nohup命令实现后台运行,完... 目录本地编译golang程序上传Golang二进制文件到linux服务器总结本地编译Golang程序

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

利用Python脚本实现批量将图片转换为WebP格式

《利用Python脚本实现批量将图片转换为WebP格式》Python语言的简洁语法和库支持使其成为图像处理的理想选择,本文将介绍如何利用Python实现批量将图片转换为WebP格式的脚本,WebP作为... 目录简介1. python在图像处理中的应用2. WebP格式的原理和优势2.1 WebP格式与传统

Java Web实现类似Excel表格锁定功能实战教程

《JavaWeb实现类似Excel表格锁定功能实战教程》本文将详细介绍通过创建特定div元素并利用CSS布局和JavaScript事件监听来实现类似Excel的锁定行和列效果的方法,感兴趣的朋友跟随... 目录1. 模拟Excel表格锁定功能2. 创建3个div元素实现表格锁定2.1 div元素布局设计2.

SpringBoot连接Redis集群教程

《SpringBoot连接Redis集群教程》:本文主要介绍SpringBoot连接Redis集群教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 依赖2. 修改配置文件3. 创建RedisClusterConfig4. 测试总结1. 依赖 <de

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

Nexus安装和启动的实现教程

《Nexus安装和启动的实现教程》:本文主要介绍Nexus安装和启动的实现教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Nexus下载二、Nexus安装和启动三、关闭Nexus总结一、Nexus下载官方下载链接:DownloadWindows系统根

CnPlugin是PL/SQL Developer工具插件使用教程

《CnPlugin是PL/SQLDeveloper工具插件使用教程》:本文主要介绍CnPlugin是PL/SQLDeveloper工具插件使用教程,具有很好的参考价值,希望对大家有所帮助,如有错... 目录PL/SQL Developer工具插件使用安装拷贝文件配置总结PL/SQL Developer工具插