SysNucleus WebHarvy是一款视觉网络抓取工具,使用WebHarvy,您可以轻松地从任何网站抓取文本,HTML,图片,URL和电子邮件,并将抓取的数据保存在各种格式中。它的使用方式非常简便,WebHarvy可以从任何网站抓取数据,处理登录,表单提交,导航,分页,类别和关键词。支持代理服务器和定时抓取。

maxresdefault-197

使用WebHarvy的点并点击界面,网络抓取变得非常容易。无需编写代码或脚本来抓取数据。您将使用WebHarvy的内置浏览器来加载和导航网站,您可以使用鼠标点击选择要提取的数据。WebHarvy能够自动识别网页中数据的模式。对于在网页中爬取一个列表或表格的项目(如名称,地址,电子邮件,价格等),无需额外的配置。如果数据重复,WebHarvy将自动抓取。

WebHarvy允许您从独立页面的多个链接中抓取数据,这样便于您在使用单一配置时抓取网站内的类别和子类别。您可以在网络抓取之前,通过浏览器在目标页面中运行自己的JavaScript代码。这可以用来和页面元素互动,修改DOM或者调用已在目标页实现的JavaScript功能。如此多种功能,使得WebHarvy在网络抓取领域中独具魅力,受到了用户的广泛赞誉。

简单的网页抓取
通过 WebHarvy 的点击界面,网页抓取变得非常简单。无需编写代码或脚本来抓取数据。您将使用 WebHarvy 的内置浏览器加载和导航网站,并且可以通过单击鼠标选择要抓取的数据。

智能模式检测
WebHarvy 自动识别网页中出现的数据模式。要从网页中抓取项目列表或表格(名称、地址、电子邮件、价格等),不需要额外的配置。如果数据重复,WebHarvy 会自动抓取它。

保存到文件或数据库
抓取的数据可以以多种格式保存。当前版本的 WebHarvy 网页抓取软件允许您将抓取的数据保存为 Excel、XML、CSV、JSON 或 TSV 文件。您还可以将数据导出到 SQL 数据库。

处理分页
网站通常会在多个页面中显示产品列表或搜索结果等数据。 WebHarvy 可以自动从多个页面爬行和抓取数据。只需指出“下一页的链接”,WebHarvy 就会自动从所有页面中抓取数据。

提交关键词
通过自动向搜索表单提交输入关键字列表来抓取数据。可以将任意数量的输入关键字提交到多个输入文本字段来执行搜索。可以从输入关键字的所有组合的搜索结果中抓取数据。

保护隐私
为了匿名抓取数据并防止网络抓取软件被网络服务器阻止,您可以选择通过代理服务器或 VPN 访问目标网站。可以使用单个代理服务器或代理服务器列表。

类别抓取
WebHarvy 允许您从指向网站内类似页面/列表的链接列表中抓取数据。这允许您使用单一配置来抓取网站内的类别和子类别。

常用表达
正则表达式 (RegEx) 可以应用于网页的文本或 HTML 源来抓取匹配部分。这种强大的技术为您在抓取数据时提供了更大的灵活性和控制力。

JavaScript 支持
在抓取数据之前,在浏览器中运行您自己的 JavaScript 代码。这可用于与页面元素交互、修改 DOM 或调用目标页面中已实现的 JavaScript 函数。

图像抓取
可以下载图像或抓取图像 URL。 WebHarvy 可以自动抓取电子商务网站产品详细信息页面中显示的多张图像。

自动执行浏览器任务
WebHarvy 可以轻松配置为执行诸如 单击链接、 选择列表/下拉选项、在字段中输入文本、 滚动页面、 打开弹出窗口等 任务。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。