网页信息抽取:Java实现抽取网页信息疯狂代码！

网页信息抽取:Java实现抽取网页信息

使用正则表达式及

串操作

抽取网页信息

实现代码如下:
/* 去script */
public

String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;

(m.find

) {
result = m.replaceAll("");
}

result;
}
/* 去除注释*/
public

String trimComment(String content) {
String regEx = "";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;

(m.find

) {
result = m.replaceAll("");
}

result;
}

/* 去除标签 */
public

String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;

(m.find

) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");

result;
}

/* 根据起始位置和结束位置

截取

串 */
public

String subString(String start, String end, String content) {

iStart = content.indexOf(start);

iEnd = content.indexOf(end);

(iStart < iEnd) {

content.sub

(iStart, iEnd);
}

null;
}

Tags: java实现文件上传 java网页信息抽取网页信息抽取

网页信息抽取:Java实现抽取网页信息

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注