网页信息提取能力哪家强?GPT4、Claude、perplexity、kimi、通义千问大比拼

本文主要是介绍网页信息提取能力哪家强?GPT4、Claude、perplexity、kimi、通义千问大比拼,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

barnesandnoble网上书店有一个页面:https://www.barnesandnoble.com/b/books/step-into-reading-early-readers-kids-fiction/step-into-reading-book-series-a-step-3-book-childrens-fiction/_/N-29Z8q8Z2i94?Nrpp=40&page=1 ,

现在想把网页上的书名都提取出来,测试了国内外几个主流AI大模型,提示词:

https://www.barnesandnoble.com/b/books/step-into-reading-early-readers-kids-fiction/step-into-reading-book-series-a-step-3-book-childrens-fiction/_/N-29Z8q8Z2i94?Nrpp=40&page=1 ,提取这个页面中的全部书名

具体结果如下:

GPT4表现很棒,但是只提取了20个书名,原页面中有40个书名;

根据提供的网页内容,这里列出了一些“Step into Reading”系列中儿童小说的书名:

Show me the Honey (Dr. Seuss/Cat in the Hat) by Tish Rabe, Christopher Moroney (Illustrator)

Danger: Dinosaurs! (Jurassic World) by Courtney Carbone, Random House (Illustrator)

Quest for the Heart (Disney Moana) by RH Disney, RH Disney (Illustrator)

Dinosaur Rescue! (Jurassic World) by Kristen L. Depken, Random House (Illustrator)

Dinosaurs in the Wild! by Dennis R. Shealy, Random House (Illustrator)

Dolphins! (Step into Reading) by Sharon Bokoske, Richard Courtney (Illustrator)

Poppy and Branch's Big Adventure by Mona Miller

Arthur's Reading Trick (Step into Reading) by Marc Brown

Elsa's Epic Journey (Disney Frozen 2) by Susan Amerikaner, Disney Storybook Art Team (Illustrator)

The Best Mistake Ever! And Other Stories by Richard Scarry

The Missing Tooth (Step into Reading) by Joanna Cole

Scooby's Scary Christmas! by Random House

Hooray for Hair! (Dr. Seuss/Cat in the Hat) by Tish Rabe, Tom Brannon (Illustrator)

The Incredible Elastigirl (Disney/Pixar The Incredibles 2) by Natasha Bouchard, Disney Storybook Art Team (Illustrator)

Arthur in New York (Step into Reading) by Marc Brown

Arthur and the School Pet by Marc Brown

Journey into the Mind (Disney/Pixar Inside Out) by RH Disney, RH Disney (Illustrator)

Driven to Win! (Disney/Pixar Cars 3) by RH Disney, RH Disney (Illustrator)

Poppy's Party (DreamWorks Trolls) by Frank Berrios, Gabriella Matta (Illustrator), Fabio Laguna (Illustrator), Francesco Legramandi (Illustrator)

Wonder Woman for President/Rule the School! (DC Super Hero Girls) by Shea Fontana, Dario Brizuela (Illustrator)

这个列表包含了部分书名,以及每本书的作者和插画师。

perplexity.ai在胡编:

Claude3也是瞎编高手:

Kimichat无法读取网页,但给出了解决方法

通义千问也是无法访问网页

豆包直接说不行

综上,GPT4的网页信息提取能力最突出,结果最令人满意,其他基本没有提取出来。更令人担心的是,有些AI模型会像模像样的给出看起来很像的假结果。

这篇关于网页信息提取能力哪家强?GPT4、Claude、perplexity、kimi、通义千问大比拼的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/931359

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

python获取网页表格的多种方法汇总

《python获取网页表格的多种方法汇总》我们在网页上看到很多的表格,如果要获取里面的数据或者转化成其他格式,就需要将表格获取下来并进行整理,在Python中,获取网页表格的方法有多种,下面就跟随小编... 目录1. 使用Pandas的read_html2. 使用BeautifulSoup和pandas3.

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

Python使用DrissionPage中ChromiumPage进行自动化网页操作

《Python使用DrissionPage中ChromiumPage进行自动化网页操作》DrissionPage作为一款轻量级且功能强大的浏览器自动化库,为开发者提供了丰富的功能支持,本文将使用Dri... 目录前言一、ChromiumPage基础操作1.初始化Drission 和 ChromiumPage

无线路由器哪个品牌好用信号强? 口碑最好的三个路由器大比拼

《无线路由器哪个品牌好用信号强?口碑最好的三个路由器大比拼》不同品牌在信号覆盖、稳定性和易用性等方面各有特色,如何在众多选择中找到最适合自己的那款无线路由器呢?今天推荐三款路由器让你的网速起飞... 今天我们来聊聊那些让网速飞起来的路由器。在这个信息爆炸的时代,一个好路由器简直就是家庭网编程络的心脏。无论你

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

EasyPlayer.js网页H5 Web js播放器能力合集

最近遇到一个需求,要求做一款播放器,发现能力上跟EasyPlayer.js基本一致,满足要求: 需求 功性能 分类 需求描述 功能 预览 分屏模式 单分屏(单屏/全屏) 多分屏(2*2) 多分屏(3*3) 多分屏(4*4) 播放控制 播放(单个或全部) 暂停(暂停时展示最后一帧画面) 停止(单个或全部) 声音控制(开关/音量调节) 主辅码流切换 辅助功能 屏

禁止复制的网页怎么复制

禁止复制的网页怎么复制 文章目录 禁止复制的网页怎么复制前言准备工作操作步骤一、在浏览器菜单中找到“开发者工具”二、点击“检查元素(inspect element)”按钮三、在网页中选取需要的片段,锁定对应的元素四、复制被选中的元素五、粘贴到记事本,以`.html`为后缀命名六、打开`xxx.html`,优雅地复制 前言 在浏览网页的时候,有的网页内容无法复制。比如「360

火语言RPA流程组件介绍--浏览网页

🚩【组件功能】:浏览器打开指定网址或本地html文件 配置预览 配置说明 网址URL 支持T或# 默认FLOW输入项 输入需要打开的网址URL 超时时间 支持T或# 打开网页超时时间 执行后后等待时间(ms) 支持T或# 当前组件执行完成后继续等待的时间 UserAgent 支持T或# User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器

起点中文网防止网页调试的代码展示

起点中文网对爬虫非常敏感。如图,想在页面启用调试后会显示“已在调试程序中暂停”。 选择停用断点并继续运行后会造成cpu占用率升高电脑卡顿。 经简单分析网站使用了js代码用于防止调试并在强制继续运行后造成电脑卡顿,代码如下: function A(A, B) {if (null != B && "undefined" != typeof Symbol && B[Symbol.hasInstan