将网站转变为大模型训练数据的神器:自动化爬虫工具FireCrawl,两周斩获4K Star!

本文主要是介绍将网站转变为大模型训练数据的神器:自动化爬虫工具FireCrawl,两周斩获4K Star!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

cover_image

将网站转变为大模型训练数据的神器:自动化爬虫工具FireCrawl,两周斩获4K Star!

原文链接:(更好排版、视频播放、社群交流、最新AI开源项目、AI工具分享都在这个公众号!)

🔥将整个网站转变为适用于 ** 大模型训练 ** 的 Markdown 或结构化数据。使用单个 API 进行抓取、爬行、搜索和提取。 ****

Hello,大家好,我是Aitrainee。今天给大家介绍一下Firecrawl,这是一个实用的爬虫工具。

Firecrawl 是什么?

Firecrawl就像一个 智能机器人 ,从你给定的网页开始,自动找到并访问这个网站上的所有其他页面。它会提取每个页面中的主要内容, **
去掉广告 ** 和其他不需要的东西,然后把这些信息整理好,让你方便使用。而且,它不需要网站提供的地图文件来找到这些页面。

Firecrawl可以从你 ** 指定的网页 ** 开始,自动访问这个网站上所有能打开的子页面。就像你点开一个链接后,它会继续点开这个页面里的
所有链接
,直到把所有页面都访问一遍。只要这些页面没有被网站的设置阻止(比如没有被robots.txt文件禁止访问),Firecrawl就能爬取它们。

此外,Firecrawl还会从每个页面中提取有用的信息,去掉不重要的内容(比如广告和导航栏),并把这些数据整理成 易于使用
的格式,比如Markdown。

站点地图是什么?

站点地图(sitemap)是一个网站提供的文件,列出网站上的所有页面。它帮助搜索引擎或爬虫更快地找到和访问这些页面。站点地图通常是一个XML文件,里面包含网站上所有页面的链接。

总结一下:

  1. 1. Firecrawl 会自动从你给定的网页开始,遍历网站上的所有链接,爬取所有能访问的页面。

  2. 2. 它会去除 杂乱信息 ,提取有用的数据并整理好。

  3. 3. 无需 站点地图 ,Firecrawl也能找到并爬取所有页面。

演示视频

油管博主:开发者文稿 / 字幕译:Aitrainee, ** 链接在这里 ** :

https://www.youtube.com/watch?v=fDSM7chMo5E

下面提供官方的 文档介绍、相关资源、部署教程 等,进一步支撑你的行动,以提升本文的帮助力。

🔥 Firecrawl

我们提供了易于使用的API托管版本。您可以在 这里 找到演示和文档。您也可以自行托管后台服务。

  • • API

  • • Python SDK

  • • Node SDK

  • • Langchain集成 🦜🔗

  • • Llama Index集成 🦙

  • • Langchain JS集成 🦜🔗

  • • 想要其他SDK或集成?请通过打开issue告知我们。

要在本地运行,请参考 指南 。

API密钥

要使用API,您需要在 Firecrawl 注册并获取API密钥。

爬取

用于爬取一个URL及其所有可访问的子页面。此操作提交一个爬取任务并返回一个作业ID以检查爬取状态。

curl -X POST https://api.firecrawl.dev/v0/crawl \  -H 'Content-Type: application/json' \  -H 'Authorization: Bearer YOUR_API_KEY' \  -d '{  "url": "https://mendable.ai"  }'

返回一个作业ID

{ "jobId": "1234-5678-9101" }

检查爬取作业

用于检查爬取作业的状态并获取其结果。

curl -X GET https://api.firecrawl.dev/v0/crawl/status/1234-5678-9101 \  -H 'Content-Type: application/json' \  -H 'Authorization: Bearer YOUR_API_KEY'{  "status": "completed",  "current": 22,  "total": 22,  "data": [  {  "content": "Raw Content ",  "markdown": "# Markdown Content",  "provider": "web-scraper",  "metadata": {  "title": "Mendable | AI for CX and Sales",  "description": "AI for CX and Sales",  "language": null,  "sourceURL": "https://www.mendable.ai/"  }  }  ]  
}

爬取

用于爬取一个URL并获取其内容。

curl -X POST https://api.firecrawl.dev/v0/scrape \  -H 'Content-Type: application/json' \  -H 'Authorization: Bearer YOUR_API_KEY' \  -d '{  "url": "https://mendable.ai"  }'

响应:

{  "success": true,  "data": {  "content": "Raw Content ",  "markdown": "# Markdown Content",  "provider": "web-scraper",  "metadata": {  "title": "Mendable | AI for CX and Sales",  "description": "AI for CX and Sales",  "language": null,  "sourceURL": "https://www.mendable.ai/"  }  }  
}

搜索(测试版)

用于搜索网络,获取最相关的结果,爬取每个页面并返回Markdown格式的数据。

curl -X POST https://api.firecrawl.dev/v0/search \  -H 'Content-Type: application/json' \  -H 'Authorization: Bearer YOUR_API_KEY' \  -d '{  "query": "firecrawl",  "pageOptions": {  "fetchPageContent": true // 设置为false可快速获取搜索引擎结果页面  }  }'{  "success": true,  "data": [  {  "url": "https://mendable.ai",  "markdown": "# Markdown Content",  "provider": "web-scraper",  "metadata": {  "title": "Mendable | AI for CX and Sales",  "description": "AI for CX and Sales",  "language": null,  "sourceURL": "https://www.mendable.ai/"  }  }  ]  
}

智能提取(测试版)

用于从爬取的页面中提取结构化数据。

curl -X POST https://api.firecrawl.dev/v0/scrape \  -H 'Content-Type: application/json' \  -H 'Authorization: Bearer YOUR_API_KEY' \  -d '{  "url": "https://www.mendable.ai/",  "extractorOptions": {  "mode": "llm-extraction",  "extractionPrompt": "Based on the information on the page, extract the information from the schema. ",  "extractionSchema": {  "type": "object",  "properties": {  "company_mission": {  "type": "string"  },  "supports_sso": {  "type": "boolean"  },  "is_open_source": {  "type": "boolean"  },  "is_in_yc": {  "type": "boolean"  }  },  "required": [  "company_mission",  "supports_sso",  "is_open_source",  "is_in_yc"  ]  }  }  }'{  "success": true,  "data": {  "content": "Raw Content",  "metadata": {  "title": "Mendable",  "description": "Mendable allows you to easily build AI chat applications. Ingest, customize, then deploy with one line of code anywhere you want. Brought to you by SideGuide",  "robots": "follow, index",  "ogTitle": "Mendable",  "ogDescription": "Mendable allows you to easily build AI chat applications. Ingest, customize, then deploy with one line of code anywhere you want. Brought to you by SideGuide",  "ogUrl": "https://mendable.ai/",  "ogImage": "https://mendable.ai/mendable_new_og1.png",  "ogLocaleAlternate": [],  "ogSiteName": "Mendable",  "sourceURL": "https://mendable.ai/"  },  "llm_extraction": {  "company_mission": "Train a secure AI on your technical resources that answers customer and employee questions so your team doesn't have to",  "supports_sso": true,  "is_open_source": false,  "is_in_yc": true  }  }  
}

使用Python SDK

安装Python SDK

pip install firecrawl-py

爬取一个网站

from firecrawl import FirecrawlApp  app = FirecrawlApp(api_key="YOUR_API_KEY")  crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})  # 获取Markdown内容  
for result in crawl_result:  print(result['markdown'])

爬取一个URL

要爬取单个URL,请使用 scrape_url 方法。它接收URL作为参数并返回爬取的数据字典。

url = 'https://example.com'  
scraped_data = app.scrape_url(url)

从URL中提取结构化数据

通过LLM提取,您可以轻松地从任何URL中提取结构化数据。我们支持Pydantic模型,使其更容易使用。以下是使用方法:

class ArticleSchema(BaseModel):  title: str  points: int   by: str  commentsURL: str  class TopArticlesSchema(BaseModel):  top: List[ArticleSchema] = Field(..., max_items=5, description="Top 5  stories")  data = app.scrape_url('https://news.ycombinator.com', {  'extractorOptions': {  'extractionSchema': TopArticlesSchema.model_json_schema(),  'mode': 'llm-extraction'  },  'pageOptions':{  'onlyMainContent': True  }  
})  
print(data["llm_extraction"])

搜索查询

执行网络搜索,获取顶级结果,提取每个页面的数据,并返回它们的Markdown格式内容。

query = 'What is Mendable?'  
search_result = app.search(query)

使用Node SDK

安装

要安装Firecrawl Node SDK,可以使用npm:

npm install @mendable/firecrawl-js

使用方法

  1. 1. 从 firecrawl.dev 获取API密钥。

  2. 2. 将API密钥设置为环境变量 FIRECRAWL_API_KEY ,或将其作为参数传递给 FirecrawlApp 类。

爬取URL

要爬取单个URL并进行错误处理,请使用 scrapeUrl 方法。它接收URL作为参数并返回爬取的数据字典。

try {  const url = 'https://example.com';  const scrapedData = await app.scrapeUrl(url);  console.log(scrapedData);  
} catch (error) {  console.error(  'Error occurred while scraping:',  error.message  );  
}

爬取网站

要爬取网站并进行错误处理,请使用 crawlUrl 方法。它接收起始URL和可选参数作为参数。 params
参数允许您指定爬取任务的附加选项,例如最大爬取页面数、允许的域和输出格式。

const crawlUrl = 'https://example.com';  
const params = {  crawlerOptions: {  excludes: ['blog/'],  includes: [], // 留空以包含所有页面  limit: 1000,  },  pageOptions: {  onlyMainContent: true  }  
};  
const waitUntilDone = true;  
const timeout = 5;  
const crawlResult = await app.crawlUrl(  crawlUrl,  params,  waitUntilDone,  timeout  
);

检查爬取状态

要检查爬取任务的状态并进行错误处理,请使用 checkCrawlStatus 方法。它接收作业ID作为参数并返回爬取任务的当前状态。

const status = await app.checkCrawlStatus(jobId);  
console.log(status);

从URL中提取结构化数据

通过LLM提取,您可以轻松地从任何URL中提取结构化数据。我们支持zod模式,使其更容易使用。以下是使用方法:

import FirecrawlApp from "@mendable/firecrawl-js";  
import { z } from "zod";  const app = new FirecrawlApp({  apiKey: "fc-YOUR_API_KEY",  
});  // 定义要提取内容的模式  
const schema = z.object({  top: z  .array(  z.object({  title: z.string(),  points: z.number(),  by: z.string(),  commentsURL: z.string(),  })  )  .length(5)  .describe("Hacker News上的前5个故事"),  
});  const scrapeResult = await app.scrapeUrl("https://news.ycombinator.com", {  extractorOptions: { extractionSchema: schema },  
});  console.log(scrapeResult.data["llm_extraction"]);

搜索查询

通过 search 方法,您可以在搜索引擎中搜索查询并获取顶级结果及每个结果的页面内容。该方法接收查询作为参数并返回搜索结果。

const query = 'what is mendable?';  
const searchResults = await app.search(query, {  pageOptions: {  fetchPageContent: true // 获取每个搜索结果的页面内容  }  
});

参考链接:
[1]https://github.com/mendableai/firecrawl

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

**
**

** 点这里👇关注我,记得标星哦~ **

**
**

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预览时标签不可点

微信扫一扫
关注该公众号

轻触阅读原文

AI进修生



收藏

这篇关于将网站转变为大模型训练数据的神器:自动化爬虫工具FireCrawl,两周斩获4K Star!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1037396

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

CnPlugin是PL/SQL Developer工具插件使用教程

《CnPlugin是PL/SQLDeveloper工具插件使用教程》:本文主要介绍CnPlugin是PL/SQLDeveloper工具插件使用教程,具有很好的参考价值,希望对大家有所帮助,如有错... 目录PL/SQL Developer工具插件使用安装拷贝文件配置总结PL/SQL Developer工具插

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据