专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅
一个网页中可能含有很多段落,但同时也夹杂着不少的标签(tags),而这却不是我们所需要的,所以必须去掉。那么怎么去掉呢?用Visitor,请看下面代码: NodeList body_nodes=this.getParser().parse(body_filter); for(int i=0;i<body_nodes.size();i++) { Node node=body_nodes.elementAt(i); Parser body_parser=new Parser(node.toHtml()); TextExtractingVisitor vi... [阅读全文] [PDF]
1 共1条 分1页