网页信息抽取:Java实现抽取网页信息



使用正则表达式及串操作抽取网页信息实现代码如下:
/* 去script */
public String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
(m.find) {
result = m.replaceAll("");
}
result;
}
/* 去除注释*/
public String trimComment(String content) {
String regEx = "<!--[^-]*-->";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
(m.find) {
result = m.replaceAll("");
}
result;
}

/* 去除标签 */
public String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
(m.find) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");
result;
}

/* 根据起始位置和结束位置截取串 */
public String subString(String start, String end, String content) {
iStart = content.indexOf(start);
iEnd = content.indexOf(end);
(iStart < iEnd) {
content.sub(iStart, iEnd);
}
null;
}
Tags:  java实现文件上传 java网页 信息抽取 网页信息抽取

延伸阅读

最新评论

发表评论