Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧

时间：2023-10-18 16:38:50　

Screaming Frog SEO Spider for Mac是一个网站爬虫，允许你抓取网站的网址，并获取关键要素，分析和审计技术和现场搜索引擎优化。在本篇文章中，我们介绍的是Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧。

Screaming Frog SEO Spider for Mac使用教程

1）点击“配置>自定义>提取”
该菜单可以在SEO Spider的顶级菜单中找到。自定义提取以进行网页抓取
这将打开自定义提取配置，允许您配置多达100个单独的“提取器”。2）选择CSS路径，XPath或正则表达式进行剪贴
在尖叫青蛙 SEO蜘蛛工具提供从网站抄袭数据的三种方法：

XPath – XPath是一种查询语言，用于从XML之类的文档（例如HTML）中选择节点。此选项使您可以使用XPath选择器（包括属性）来抓取数据。
CSS路径 –在CSS中，选择器是用于选择元素的模式，通常是三种可用方法中最快的一种。此选项使您可以使用CSS路径选择器来抓取数据。可选属性字段也可用。
正则表达式 –正则表达式当然是用于匹配数据模式的特殊文本字符串。这最适合高级用途，例如抓取HTML注释或内联JavaScript。
建议在大多数常见情况下使用CSS Path或XPath，尽管它们都有各自的优势，但是您可以简单地选择最适合使用的选项。

使用XPath或CSS Path收集HTML时，您可以使用下拉过滤器准确选择要提取的内容–

提取HTML元素 –所选元素及其所有内部HTML内容。
提取内部HTML –所选元素的内部HTML内容。如果所选元素包含其他HTML元素，则将它们包括在内。
提取文本 –所选元素的文本内容以及任何子元素的文本内容。
3）输入语法
接下来，您需要将语法输入到相关的提取器字段中。查找要抓取的数据的相关CSS路径或Xpath的快速简便方法是，只需在Chrome中打开网页，然后打开要收集的HTML行的“检查元素”，然后右键单击并复制提供的相关选择器路径。

例如，您可能希望开始抓取博客文章的“作者”，并且每个人都收到了评论。让我们以Screaming Frog网站为例。

在Chrome中打开任何博客帖子，右键单击并在每个帖子上的作者姓名上单击“检查元素”，这将打开“元素” HTML窗口。只需再次右键单击相关的HTML行（具有作者姓名），复制相关的CSS路径或XPath，然后将其粘贴到SEO Spider的相应提取器字段中即可。如果您使用Firefox，则也可以在其中进行相同的操作。
CSS Path Scraping作者您可以重命名“提取程序”，它对应于SEO Spider中的列名。在此示例中，我使用了CSS Path。定制提取作者和评论
每个提取器旁边的对勾确认所使用的语法有效。如果它们旁边有一个红叉，则可能需要进行一些调整，因为它们无效。

当您感到高兴时，只需按下底部的“确定”按钮即可。如果您想查看更多示例，请跳至本指南的底部。

请注意–这不是构建CSS选择器和XPath表达式的最可靠的方法。使用此方法给出的表达式可以非常特定于元素在代码中的确切位置。由于检查的视图是页面/ DOM的呈现版本，因此这是可以更改的，默认情况下，SEO Spider会查看HTML源代码，而SEO Spider在其中处理页面时会进行HTML清理是无效的加价。

这些内容在浏览器之间也可能有所不同，例如，对于上述“作者”示例，给出了以下CSS选择器–

Chrome：正文> div.mAIn-blog.clearfix> div> div.mAIn-blog-posts> div.mAIn-blog-posts_single-inside_author.clearfix.drop> div.mAIn-blog-posts_single-inside_author-detAIls.col- 13-16> div.author-detAIls-social>
Firefox： .author-detAIls-social> a：nth-child（1）

Firefox提供的表达式通常比Chrome提供的表达式更强大。即使这样，也不应将其用作理解各种提取选项并能够通过检查HTML源代码手动构建这些选项的完整替代。

关于CSS选择器的w3schools指南及其XPath简介是了解这些表达式基础的好资源。

4）抓取网站
接下来，在顶部的URL字段中输入网站地址，然后单击“开始”以爬网网站并开始抓取。5）在“自定义提取”选项卡下查看爬取的数据
抓取的数据开始在抓取过程中实时显示在“自定义提取”选项卡以及“内部”选项卡下，您可以将收集到的所有数据一起导出到Excel中。

在上面概述的示例中，我们可以看到每篇博客文章旁边的作者姓名和评论数已被抓取。

自定义提取
当进度条达到“ 100％”时，爬网已完成，您可以选择使用“导出”按钮来“导出”数据。

如果您已经有了想要从中提取数据的URL列表，而不是抓取网站来收集数据，则可以使用列表模式上载它们。

而已！希望以上指南有助于说明如何使用SEO Spider软件进行网页抓取。
显然，可能性是无限的，此功能可用于收集任何内容，从纯文本到Google Analytics（分析）ID，架构，社交元标签（例如Open Graph标签和Twitter卡），移动注释，hreflang值以及价格产品，折扣率，库存可用性等。我已经介绍了更多示例，这些示例按提取方法划分。