Java实现从Html文本中提取纯文本的方法
作者:fjssharpsword 时间:2023-06-18 20:28:26
1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签;
2、代码一:replaceAll搞定
//从html中提取纯文本
public static String StripHT(String strHtml) {
String txtcontent = strHtml.replaceAll("</?[^>]+>", ""); //剔出<html>的标签
txtcontent = txtcontent.replaceAll("<a>\\s*|\t|\r|\n</a>", "");//去除字符串中的空格,回车,换行符,制表符
return txtcontent;
}
3、代码二:正则表达式搞定
//从html中提取纯文本
public static String Html2Text(String inputString) {
String htmlStr = inputString; // 含html标签的字符串
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 过滤style标签
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 过滤html标签
textStr = htmlStr;
} catch (Exception e) {System.err.println("Html2Text: " + e.getMessage()); }
//剔除空格行
textStr=textStr.replaceAll("[ ]+", " ");
textStr=textStr.replaceAll("(?m)^\\s*$(\\n|\\r\\n)", "");
return textStr;// 返回文本字符串
}
4、代码三:HTMLEditorKit.ParserCallback搞定,Java自带的类
package com.util;
import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class Html2Text extends HTMLEditorKit.ParserCallback {
StringBuffer s;
public Html2Text() {}
public void parse(Reader in) throws IOException {
s = new StringBuffer();
ParserDelegator delegator = new ParserDelegator();
// the third parameter is TRUE to ignore charset directive
delegator.parse(in, this, Boolean.TRUE);
}
public void handleText(char[] text, int pos) {
s.append(text);
}
public String getText() {
return s.toString();
}
public static void main (String[] args) {
try {
// the HTML to convert
//Reader in=new StringReader("string");
FileReader in = new FileReader("java-new.html");
Html2Text parser = new Html2Text();
parser.parse(in);
in.close();
System.out.println(parser.getText());
}
catch (Exception e) {
e.printStackTrace();
}
}
}
来源:https://blog.csdn.net/fjssharpsword/article/details/53467079
标签:java,html,提取,纯文本
0
投稿
猜你喜欢
C语言实现的猴子分桃问题算法解决方案
2022-10-19 19:03:32
Java日期与时间类原理解析
2021-07-20 14:00:36
详解java Collections.sort的两种用法
2023-11-28 09:30:31
使用maven运行Java Main的三种方法解析
2021-09-24 10:09:28
深入探讨Linux静态库与动态库的详解(一看就懂)
2023-07-04 01:02:28
Android仿淘宝商品详情页
2023-09-08 18:37:26
Android 通过onDraw实现在View中绘图操作的示例
2023-07-14 02:15:38
Android Bitmap详解及Bitmap的内存优化
2022-06-27 13:44:55
分享我的第一次java Selenium自动化测试框架开发过程
2021-05-30 01:16:25
C#中WPF颜色对话框控件的实现
2023-04-13 06:09:41
Android使用GridView实现横向滚动效果
2022-01-29 13:32:16
C# List介绍及具体用法
2021-09-15 07:59:14
Spring AOP底层源码详解
2022-03-12 02:00:26
详解WPF中用户控件和自定义控件的使用
2023-07-25 12:20:26
Java Apollo是如何实现配置更新的
2023-09-26 13:55:18
java如何使用Lombok更优雅地编码
2022-07-24 23:24:50
Android中GPS坐标转换为高德地图坐标详解
2023-10-07 20:40:24
Android基于注解的6.0权限动态请求框架详解
2023-08-13 13:31:32
Java并发框架:Executor API详解
2021-10-31 14:30:28
Spring boot如何快速的配置多个Redis数据源
2023-05-12 18:27:32