零基础写Java知乎爬虫之准备工作

作者:hebedich 时间:2022-10-25 01:19:18 

开篇我们还是和原来一样,讲一讲做爬虫的思路以及需要准备的知识吧,高手们请直接忽略。

首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。

需求如下:

1.模拟访问知乎官网(http://www.zhihu.com/)

2.下载指定的页面内容,包括:今日最热,本月最热,编辑推荐

3.下载指定分类中的所有问答,比如:投资,编程,挂科

4.下载指定回答者的所有回答

5.最好有个一键点赞的变态功能(这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了!)

那么需要解决的技术问题简单罗列如下:

1.模拟浏览器访问网页

2.抓取关键数据并保存到本地

3.解决网页浏览中的动态加载问题

4.使用树状结构海量抓取知乎的所有内容

好的,目前就想了这些。

接下来就是准备工作了。

1.确定爬虫语言:由于以前写过一系列爬虫教程(点击这里),百度贴吧,糗事百科,山东大学的绩点查询等都是用python写的,所以这次决定使用Java来写(喂完全没有半毛钱联系好吗)。

2.科普爬虫知识:网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请(点击这里)。

3.准备爬虫环境:Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句,一个好用的浏览器对于爬虫来说非常重要,因为首先你需要自己浏览网页知道你需要的东西在哪里,你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器,或者谷歌浏览器,它们的右键审查元素和查看源代码的功能都非常强大。

下面我们开始正式的爬虫之旅!~具体讲些什么呢,恩,这是个问题,让我好好想想,别急^_^

标签:Java,爬虫,知乎
0
投稿

猜你喜欢

  • 如何利用Jackson序列化忽略指定类型的属性详解

    2023-11-16 09:01:27
  • Mybatis如何解决sql中like通配符模糊匹配问题

    2023-12-22 19:39:52
  • idea企业开发之新建各类型项目的详细教程

    2023-02-28 05:27:11
  • 利用C#9.0新语法如何提升if语句美感

    2021-06-15 12:48:54
  • c# 网络编程之tcp

    2022-07-24 03:27:27
  • Path类 操作文件类的实例

    2023-09-27 12:53:33
  • java ThreadGroup的作用及方法详解

    2022-02-03 16:49:01
  • android中实现背景图片颜色渐变方法

    2021-12-26 04:55:40
  • java实现二叉树的创建及5种遍历方法(总结)

    2022-03-14 09:00:28
  • Java BigDecimal除法精度和格式化输出方式

    2023-01-06 01:03:42
  • c# StringBuilder.Replace 方法 (Char, Char, Int32, Int32)

    2022-02-27 06:53:11
  • Linux下JDK安装教程

    2022-04-08 18:04:46
  • C#类的访问修饰符用法分析

    2021-12-22 22:23:01
  • Java中的CAS和ABA问题说明

    2021-08-19 11:08:18
  • 详谈Java几种线程池类型介绍及使用方法

    2023-10-13 03:27:30
  • Android shell命令行中过滤adb logcat输出的方法

    2023-11-23 07:30:29
  • SpringBoot基于Actuator远程关闭服务

    2022-06-24 21:36:37
  • c# 曲线图生成代码

    2023-03-27 07:52:55
  • Spring boot集成redis lettuce代码实例

    2022-08-03 12:21:19
  • C#并行编程之Task任务

    2023-05-30 16:54:41
  • asp之家 软件编程 m.aspxhome.com