1分钟快速生成用于网页内容提取的xslt

作者:fullerhua 时间:2021-08-06 17:43:41 

1分钟快速生成用于网页内容提取的xslt,具体内容如下

1、项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。

网友必然会质疑:这个xslt这么长,编写不是要花很长时间?

实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。

2、MS谋数台能做什么

MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:

  • 基于直观标注自动生成XSLT

  • 即时测试XSLT的正确性

  • 树状的DOM结构展示

  • 剖析某个DOM节点的属性

  • 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位

  • 根据xpath搜索DOM节点

MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3、用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:
第一步,打开GooSeeker的MS谋数台,输入要抓取的网址
第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认

1分钟快速生成用于网页内容提取的xslt

第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来

1分钟快速生成用于网页内容提取的xslt

通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt

4、怎样使用XSLT

在python使用xslt提取网页数据一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在《python即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。

5、文档修改历史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明

来源:http://blog.csdn.net/fullerhua/article/details/51453665

标签:xslt,内容提取
0
投稿

猜你喜欢

  • FrontPage2002简明教程七:HTML在FrontPage中的应用

    2008-09-17 11:33:00
  • python使用rabbitmq实现网络爬虫示例

    2022-04-20 20:11:58
  • python opencv图片编码为h264文件的实例

    2023-01-12 13:22:07
  • Python jieba库用法及实例解析

    2021-04-15 22:11:44
  • Python手动或自动协程操作方法解析

    2023-06-30 11:38:41
  • 使用wxpy实现自动发送微信消息功能

    2022-04-01 21:16:06
  • 基于Python获取城市近7天天气预报

    2023-04-02 08:59:35
  • 在ASP中使用SQL语句之2:用WHERE子句设置查询条件

    2009-04-21 13:03:00
  • 用JAVASCRIPT格式化数字成货币(逗号隔开)

    2008-01-30 12:34:00
  • CSS布局之浮动(三)自适应

    2008-08-19 12:49:00
  • python3 tcp的粘包现象和解决办法解析

    2022-08-02 02:22:53
  • Python爬虫的两套解析方法和四种爬虫实现过程

    2022-07-07 03:40:11
  • 开发心得--写给想学Javascript朋友的一点经验之谈

    2009-02-25 11:42:00
  • python开发利器之ulipad的使用实践

    2021-07-25 00:55:17
  • Python实现的企业粉丝抽奖功能示例

    2023-10-05 13:57:43
  • python 实现GUI(图形用户界面)编程详解

    2023-10-05 15:11:34
  • python3中的logging记录日志实现过程及封装成类的操作

    2023-07-30 21:58:21
  • ASP中Request对象获取客户端数据的顺序

    2007-09-22 10:36:00
  • PyTorch实现手写数字的识别入门小白教程

    2021-02-04 19:58:59
  • python回溯法实现数组全排列输出实例分析

    2023-06-18 20:42:27
  • asp之家 网络编程 m.aspxhome.com