Watson Explorer 入门(3):创建搜寻器(crawler,数据爬虫)

2023-10-21 16:59

本文主要是介绍Watson Explorer 入门(3):创建搜寻器(crawler,数据爬虫),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

(许野平的 Watson Explorer 笔记)

创建集合后,可以看到如下界面:

这里写图片描述

我们可以看到三个面板:1-搜寻与导入;2-解析和索引;3-搜索和内容分析。本练习讨论搜寻器的创建和配置,以及如何导入数据。

“搜寻器”的英文是 crawler,俗称爬虫,用于从网络、硬盘等数据源自动抓取数据。因为创建界面很直观,步骤不一一细说了,这里说一下几个需要注意的问题。

数据源问题

前几天在一次培训课程中,不少同学提到这个问题。实际上,Watson Explorer 有些类似数据库,能从很多类型数据源获取数据。还没仔细研究它的系统架构设计,但是我想,这个架构中一定会提供一个开放式接口处理这件事情。

NHTSA数据

在这个练习中,我们选择了 NHTSA 投诉数据,数据是 XML 格式的。所以,数据源类型在这个练习中选择的是 Windows 本地文件系统。但是我翻遍了所有可能的位置,都没能找到这些文档。最后找到一份Excel格式的文件,里面的数据正是 NHTSA 投诉数据,内容很多,于是这里就拿来做练习。

这里写图片描述

为了确保兼容性,我把数据存成了 .csv 格式。

数据源文件夹设置

Web操作界面,有些不太习惯。反复操作了几遍,发现熟悉后还是挺方便操作。操作要点如下:

  • 可以指定子文件夹的搜索层次。我找到的这些文件分布在用日期命名的多个子文件夹内,导入的时候,只需要指定他们的根文件夹和子文件夹搜索深度就行了,这个确实很方便。
  • 可以指定文件类型。这里,我直接指定 .csv 扩展名。

数据直接导入

.csv 格式的文件可以直接导入,这样就不需要爬虫来做这个任务了。这个练习中,因为没有XML数据,所以我选择了直接导入的方式建立的集合(Collection)。

小结

本练习设定了搜寻器。但是我们只设定了数据来源,目标数据还没设定。接下来设定目标数据后,就可以启动搜寻器,自动抓取并上传数据了。

(未完待续 … …)

这篇关于Watson Explorer 入门(3):创建搜寻器(crawler,数据爬虫)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/255717

相关文章

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Linux创建服务使用systemctl管理详解

《Linux创建服务使用systemctl管理详解》文章指导在Linux中创建systemd服务,设置文件权限为所有者读写、其他只读,重新加载配置,启动服务并检查状态,确保服务正常运行,关键步骤包括权... 目录创建服务 /usr/lib/systemd/system/设置服务文件权限:所有者读写js,其他

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

idea+spring boot创建项目的搭建全过程

《idea+springboot创建项目的搭建全过程》SpringBoot是Spring社区发布的一个开源项目,旨在帮助开发者快速并且更简单的构建项目,:本文主要介绍idea+springb... 目录一.idea四种搭建方式1.Javaidea命名规范2JavaWebTomcat的安装一.明确tomcat

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl