Java精确抽取网页发布时间

作者:lijiao 时间:2022-03-24 17:20:11 

对网页中各种不同格式的发布时间进行抽取,将发布时间以规整的“yyyy-MM-dd HH:mm:ss”格式表示出来,只能尽量追求精确,但是因为网络发布时间的格式十分灵活,所以做不到百分百地正确抽取


package whu.extract.pubtime.core;

import java.util.ArrayList;
import java.util.Calendar;
import java.util.Collections;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import whu.utils.TimeUtil;

/**
* Created On 2014年3月13日 下午2:49:05
* @description 获取网页的发布时间
*/
public class FetchPubTime {
 /** 表示url中连续的8位日期,例如http://www.baidu.com/20140311/2356.html */
 private static String url_reg_whole= "([-|/|_]{1}20\\d{6})";
 /** 表示 用-或者/隔开的日期,有年月日的,例如 http://www.baidu.com/2014-3-11/2356.html */
 private static String url_reg_sep_ymd = "([-|/|_]{1}20\\d{2}[-|/|_]{1}\\d{1,2}[-|/|_]{1}\\d{1,2})";
 /** 表示 用-或者/隔开的日期,只有年和月份的,例如 http://www.baidu.com/2014-3/2356.html */
 private static String url_reg_sep_ym = "([-|/|_]{1}20\\d{2}[-|/|_]{1}\\d{1,2})";
 private static Calendar current = Calendar.getInstance();
 /** 格式正确的时间正则表达式*/
 private static String rightTimeReg = "^((\\d{2}(([02468][048])|([13579][26]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])))))|(\\d{2}(([02468][1235679])|([13579][01345789]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|(1[0-9])|(2[0-8]))))))(\\s(((0?[0-9])|([1-2][0-3]))\\:([0-5]?[0-9])((\\s)|(\\:([0-5]?[0-9])))))?$";

/**
  * @param url
  * @param urlContent
  * @return
  */
 public static String getPubTimeVarious(String url,String urlContent) {

String pubTime = getPubTimeFromUrl(url);

//链接里面没有,匹配文本中的
   if(pubTime == null)
   {
     if(urlContent!=null&&!urlContent.trim().equals(""))
       return extractPageDate(urlContent);
   }

return pubTime;
 }

/**从url里面抽取出发布时间,返回YYYY-MM-DD HH:mm:ss格式的字符串
  * @param url
  * @return
  */
 public static String getPubTimeFromUrl(String url)
 {
   Pattern p_whole = Pattern.compile(url_reg_whole);
   Matcher m_whole = p_whole.matcher(url);
   if(m_whole.find(0)&&m_whole.groupCount()>0)
   {
     String time = m_whole.group(0);
     time = time.substring(1,time.length());
     //每一步都不能够超出当前时间    
   if(current.compareTo(TimeUtil.strToCalendar(time, "yyyyMMdd"))>=0)
   {

return time.substring(0,4)+"-"+time.substring(4,6)+"-"+
        time.substring(6,8)+" "+"00:00:00";
   }
   }

p_whole = null;
   m_whole = null;
   Pattern p_sep = Pattern.compile(url_reg_sep_ymd);
   Matcher m_sep = p_sep.matcher(url);
   if(m_sep.find(0)&&m_sep.groupCount()>0)
   {
      String time = m_sep.group(0);
      time = time.substring(1,time.length());
      String[] seg = time.split("[-|/|_]{1}");
      Calendar theTime = Calendar.getInstance();
      theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));
      theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));
      theTime.set(Calendar.DAY_OF_MONTH, Integer.parseInt(seg[2]));
      if(current.compareTo(theTime)>=0)
       {

return seg[0]+"-"+seg[1]+"-"+seg[2]+" "+"00:00:00";
       }
   }
   p_sep = null;
   m_sep = null;
   Pattern p_sep_ym = Pattern.compile(url_reg_sep_ym);
   Matcher m_sep_ym = p_sep_ym.matcher(url);
   if(m_sep_ym.find(0)&&m_sep_ym.groupCount()>0)
   {
      String time = m_sep_ym.group(0);
      time = time.substring(1,time.length());
      Calendar theTime = Calendar.getInstance();
      String[] seg = time.split("[-|/|_]{1}");
      theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));
      theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));
      theTime.set(Calendar.DAY_OF_MONTH, 1);
      if(current.compareTo(theTime)>=0)
     {

return seg[0]+"-"+seg[1]+"-"+"01"+" "+"00:00:00";
     }
   }

return null;
 }

/** 从网页源码中取出发布时间
  * java中正则表达式提取字符串中日期实现代码
  * 2013年12月19日15:58:42
  * 读取出2013-12-19 15:48:33或者2013-12-19或者2012/3/05形式的时间
  * @param text 待提取的字符串
  * @return 返回日期
  * @author: oschina
  * @Createtime: Jan 21, 2013
  */
 public static String extractPageDate(String text) {
   boolean containsHMS =false;
   String dateStr = text.replaceAll("r?n", " ");
   try {
     List matches = null;
     Pattern p_detail = Pattern.compile("(20\\d{2}[-/]\\d{1,2}[-/]\\d{1,2} \\d{1,2}:\\d{1,2}:\\d{1,2})|(20\\d{2}年\\d{1,2}月\\d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);
     //如果是仅仅抽取年月日,则按照上面的,如果是抽取年月日-时分秒,则按照下面的
     Pattern p = Pattern.compile("(20\\d{2}[-/]\\d{1,2}[-/]\\d{1,2})|(20\\d{2}年\\d{1,2}月\\d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);
     //Matcher matcher = p.matcher(dateStr);
     Matcher matcher_detail = p_detail.matcher(dateStr);

if(!(matcher_detail.find(0) && matcher_detail.groupCount() >= 1))
     {
       matcher_detail = p.matcher(dateStr);
       containsHMS = true;
     }else
       matcher_detail = p_detail.matcher(dateStr);
     if (matcher_detail.find() && matcher_detail.groupCount() >= 1) {
       matches = new ArrayList();
       for (int i = 1; i <= matcher_detail.groupCount(); i++) {
         String temp = matcher_detail.group(i);
         matches.add(temp);
       }
     } else {
       matches = Collections.EMPTY_LIST;
     }      

if (matches.size() > 0) {
       for(int i=0;i<matches.size();i++)
       {
         String pubTime = matches.get(i).toString().trim();
         //取出第一个值
         pubTime = pubTime.replace("/", "-").replace("年", "-").replace("月", "-").replace("日", "-");
         if(current.compareTo(TimeUtil.strToCalendar(pubTime, "yyyy-MM-dd"))>=0)
         {
           if(containsHMS)
             pubTime+=" "+"00:00:00";
           if(pubTime.matches(rightTimeReg))
           {
             return pubTime;
           }
         }
       }
     } else {
       return null;
     }

} catch (Exception e) {
     return null;
   }
   return null;
 }
}
标签:Java,抽取,时间
0
投稿

猜你喜欢

  • Android使用Room操作数据库流程详解

    2023-03-21 21:00:31
  • SpringBoot多线程进行异步请求的处理方式

    2021-11-10 10:48:30
  • 基于Mybatis-Plus的CRUD的实现

    2023-09-10 14:38:45
  • java中sleep方法和wait方法的五个区别

    2023-08-27 18:37:23
  • java实现学生成绩档案管理系统

    2023-06-29 22:48:43
  • Java之Rsync并发迁移数据并校验详解

    2023-07-17 23:01:22
  • Spring Boot ActiveMQ连接池配置过程解析

    2023-11-08 23:08:02
  • c#自定义Attribute获取接口实现示例代码

    2022-09-02 05:05:26
  • java基于AES对称加密算法实现的加密与解密功能示例

    2023-02-07 13:34:47
  • SpringMvc+Mybatis+Pagehelper分页详解

    2021-08-13 14:15:11
  • 彻底掌握C语言strcpy函数的用法

    2023-07-03 07:21:18
  • Java中equalsIgnoreCase()方法的使用

    2022-07-28 15:13:45
  • SpringBoot修改子模块Module的jdk版本的方法 附修改原因

    2023-07-23 21:05:20
  • SpringBoot中异常处理实战记录

    2022-07-21 20:39:01
  • C++实现LeetCode(159.最多有两个不同字符的最长子串)

    2023-06-20 22:39:46
  • Android自定义Drawable实现圆形和圆角

    2022-05-07 14:59:59
  • Java class文件格式之常量池_动力节点Java学院整理

    2023-04-14 07:14:06
  • Java日常练习题,每天进步一点点(42)

    2022-10-28 01:42:54
  • Java日常练习题,每天进步一点点(54)

    2023-08-18 21:55:17
  • 关于@Entity和@Table注解的用法详解

    2022-05-15 15:29:04
  • asp之家 软件编程 m.aspxhome.com