Java实现从Html文本中提取纯文本的方法

作者:fjssharpsword 时间:2023-06-18 20:28:26 

1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签;

2、代码一:replaceAll搞定


//从html中提取纯文本
public static String StripHT(String strHtml) {
String txtcontent = strHtml.replaceAll("</?[^>]+>", ""); //剔出<html>的标签
txtcontent = txtcontent.replaceAll("<a>\\s*|\t|\r|\n</a>", "");//去除字符串中的空格,回车,换行符,制表符
return txtcontent;
}

3、代码二:正则表达式搞定


//从html中提取纯文本
public static String Html2Text(String inputString) {
String htmlStr = inputString; // 含html标签的字符串
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
 String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
 String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
 p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
 m_script = p_script.matcher(htmlStr);
 htmlStr = m_script.replaceAll(""); // 过滤script标签
 p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
 m_style = p_style.matcher(htmlStr);
 htmlStr = m_style.replaceAll(""); // 过滤style标签
 p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
 m_html = p_html.matcher(htmlStr);
 htmlStr = m_html.replaceAll(""); // 过滤html标签
 textStr = htmlStr;
} catch (Exception e) {System.err.println("Html2Text: " + e.getMessage()); }
//剔除空格行
textStr=textStr.replaceAll("[ ]+", " ");
textStr=textStr.replaceAll("(?m)^\\s*$(\\n|\\r\\n)", "");
return textStr;// 返回文本字符串
}

4、代码三:HTMLEditorKit.ParserCallback搞定,Java自带的类


package com.util;
import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class Html2Text extends HTMLEditorKit.ParserCallback {
StringBuffer s;
public Html2Text() {}
public void parse(Reader in) throws IOException {
s = new StringBuffer();
ParserDelegator delegator = new ParserDelegator();
// the third parameter is TRUE to ignore charset directive
delegator.parse(in, this, Boolean.TRUE);
}
public void handleText(char[] text, int pos) {
s.append(text);
}
public String getText() {
return s.toString();
}
public static void main (String[] args) {
try {
 // the HTML to convert
//Reader in=new StringReader("string");
 FileReader in = new FileReader("java-new.html");
 Html2Text parser = new Html2Text();
 parser.parse(in);
 in.close();
 System.out.println(parser.getText());
}
catch (Exception e) {
 e.printStackTrace();
}
}
}

来源:https://blog.csdn.net/fjssharpsword/article/details/53467079

标签:java,html,提取,纯文本
0
投稿

猜你喜欢

  • C语言实现的猴子分桃问题算法解决方案

    2022-10-19 19:03:32
  • Java日期与时间类原理解析

    2021-07-20 14:00:36
  • 详解java Collections.sort的两种用法

    2023-11-28 09:30:31
  • 使用maven运行Java Main的三种方法解析

    2021-09-24 10:09:28
  • 深入探讨Linux静态库与动态库的详解(一看就懂)

    2023-07-04 01:02:28
  • Android仿淘宝商品详情页

    2023-09-08 18:37:26
  • Android 通过onDraw实现在View中绘图操作的示例

    2023-07-14 02:15:38
  • Android Bitmap详解及Bitmap的内存优化

    2022-06-27 13:44:55
  • 分享我的第一次java Selenium自动化测试框架开发过程

    2021-05-30 01:16:25
  • C#中WPF颜色对话框控件的实现

    2023-04-13 06:09:41
  • Android使用GridView实现横向滚动效果

    2022-01-29 13:32:16
  • C# List介绍及具体用法

    2021-09-15 07:59:14
  • Spring AOP底层源码详解

    2022-03-12 02:00:26
  • 详解WPF中用户控件和自定义控件的使用

    2023-07-25 12:20:26
  • Java Apollo是如何实现配置更新的

    2023-09-26 13:55:18
  • java如何使用Lombok更优雅地编码

    2022-07-24 23:24:50
  • Android中GPS坐标转换为高德地图坐标详解

    2023-10-07 20:40:24
  • Android基于注解的6.0权限动态请求框架详解

    2023-08-13 13:31:32
  • Java并发框架:Executor API详解

    2021-10-31 14:30:28
  • Spring boot如何快速的配置多个Redis数据源

    2023-05-12 18:27:32
  • asp之家 软件编程 m.aspxhome.com