JAVA过滤标签实现将html内容转换为文本的方法示例

作者:johennes 时间:2022-10-16 21:02:40 

本文实例讲述了JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:


/**
* 把html内容转为文本
* @param html 需要处理的html文本
* @param filterTags 需要保留的html标签样式
* @return
*/
public static String trimHtml2Txt(String html, String[] filterTags){
   html = html.replaceAll("\\<head>[\\s\\S]*?</head>(?i)", "");//去掉head
   html = html.replaceAll("\\<!--[\\s\\S]*?-->", "");//去掉注释
   html = html.replaceAll("\\<![\\s\\S]*?>", "");
   html = html.replaceAll("\\<style[^>]*>[\\s\\S]*?</style>(?i)", "");//去掉样式
   html = html.replaceAll("\\<script[^>]*>[\\s\\S]*?</script>(?i)", "");//去掉js
   html = html.replaceAll("\\<w:[^>]+>[\\s\\S]*?</w:[^>]+>(?i)", "");//去掉word标签
   html = html.replaceAll("\\<xml>[\\s\\S]*?</xml>(?i)", "");
   html = html.replaceAll("\\<html[^>]*>|<body[^>]*>|</html>|</body>(?i)", "");
   html = html.replaceAll("\\\r\n|\n|\r", " ");//去掉换行
   html = html.replaceAll("\\<br[^>]*>(?i)", "\n\r");
   List<String> tags = new ArrayList<String>();
   List<String> s_tags = new ArrayList<String>();
   List<String> halfTag = Arrays.asList(new String[]{"img","table","thead","th","tr","td"});//
   if(filterTags != null && filterTags.length > 0){
     for (String tag : filterTags) {
       tags.add("<"+tag+(halfTag.contains(tag)?"":">"));//开始标签
       if(!"img".equals(tag)) tags.add("</"+tag+">");//结束标签
       s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等
       if(!"img".equals(tag)) s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#");
     }
   }
   html = StringUtils.replaceEach(html, tags.toArray(new String[tags.size()]), s_tags.toArray(new String[s_tags.size()]));
   html = html.replaceAll("\\</p>(?i)", "\n\r");
   html = html.replaceAll("\\<[^>]+>", "");
   html = StringUtils.replaceEach(html,s_tags.toArray(new String[s_tags.size()]),tags.toArray(new String[tags.size()]));
   html = html.replaceAll("\\ ", " ");
   return html.trim();
}

PS:这里再为大家推荐一款功能类似的在线工具供大家参考使用:

在线html/js/css代码过滤工具
http://tools.jb51.net/code/htmlfilter

另外,关于正则操作,这里再为大家推荐两款相关在线工具:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

希望本文所述对大家java程序设计有所帮助。

标签:JAVA,过滤,标签
0
投稿

猜你喜欢

  • Android ItemDecoration 实现分组索引列表的示例代码

    2022-02-10 20:22:12
  • java15新功能的详细讲解

    2023-08-23 04:40:21
  • 基于Retrofit2+RxJava2实现Android App自动更新

    2021-09-04 20:19:29
  • Android中使用开源框架eventbus3.0实现fragment之间的通信交互

    2021-06-30 09:23:07
  • 如何使用Spring自定义Xml标签

    2022-11-14 19:01:08
  • 基于Java实现的图的广度优先遍历算法

    2021-06-02 06:51:20
  • C#实现抓取和分析网页类实例

    2023-09-21 04:27:32
  • spring boot基于Java的容器配置讲解

    2023-11-09 05:24:54
  • ClassLoader类加载源码解析

    2023-11-25 18:17:09
  • Android 文件存储系统原理

    2021-12-24 05:10:57
  • spring boot动态切换数据源的实现

    2022-04-20 14:17:03
  • C#中字符串编码处理

    2023-10-03 09:56:12
  • SpringBoot集成整合JWT与Shiro流程详解

    2022-09-06 06:33:23
  • Android实现TCP断点上传 后台C#服务接收

    2023-08-25 22:24:00
  • C++指针 详细介绍及总结

    2022-10-27 23:48:05
  • Java中Arraylist动态扩容方法详解

    2023-04-30 23:25:53
  • 详解Spring Security如何在权限中使用通配符

    2023-04-17 23:41:54
  • 详解Java多态对象的类型转换与动态绑定

    2021-10-12 06:59:59
  • Java利用递归算法实现查询斐波那契数

    2023-08-04 00:02:29
  • Android ToolBar整合实例使用方法详解

    2023-04-05 07:27:53
  • asp之家 软件编程 m.aspxhome.com