Welcome 微信登录

首页 / 软件开发 / JAVA / Java里面去掉网页里的HTML标记的方法

Java里面去掉网页里的HTML标记的方法2010-12-25 csdn 老紫竹
01./**
02. * 去掉字符串里面的html代码。<br>
03. * 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。
04. *
05. * @param content
06. *内容
07. * @return 去掉后的内容
08. */
09.public static String stripHtml(String content) {
10.// <p>段落替换为换行
11.content = content.replaceAll("<p .*?>", " ");
12.// <br><br/>替换为换行
13.content = content.replaceAll("<br\s*/?>", " ");
14.// 去掉其它的<>之间的东西
15.content = content.replaceAll("\<.*?>", "");
16.// 还原HTML
17.// content = HTMLDecoder.decode(content);
18.return content;
19.}