专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »Asp教程 » html所有代码:提取Html内容中的所有图片信息代码 »正文

html所有代码:提取Html内容中的所有图片信息代码

来源: 发布时间:星期四, 2008年9月25日 浏览:111次 评论:0

很有意思的一段代码,代码实现对HTML内容中所有图片信息的提取,大家有时间的可以研究一下,完善一下程序。

protected ArrayList GetAList(string HtmlContent)
{
try
{
ArrayList arr = new ArrayList();
HtmlContent = content.Replace(\"\\r\\n\",\"\");
HtmlContent = content.Trim();

string partern = @\"\\<img(.*?)\\>\";//@\"<a (.*)>.*</a> \";//\"<a.*(?=Headline)(.|\\n)*?\";//@\"/<a (.*)>.*<\\/\\a>/ \";


System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(partern, System.Text.RegularExpressions.RegexOptions.IgnoreCase);


System.Text.RegularExpressions.MatchCollection mc = regex.Matches(HtmlContent);

if(mc.Count <= 0)
return arr;
System.Text.RegularExpressions.Regex regex2 = new System.Text.RegularExpressions.Regex(@\"(\'|\"\"|/)?[\\w_()]*(.jpg|.bmp|.gif|.png|.jpeg)\",System.Text.RegularExpressions.RegexOptions.IgnoreCase);

foreach(Match m in mc)
{
System.Text.RegularExpressions.MatchCollection m2 = regex2.Matches(m.ToString());
if( m2.Count > 0 )
{
arr.Add( m2[0].ToString().Substring(1) );
}
}
return arr;

}
catch(Exception ex)
{
throw ex;
}

}

相关文章

读者评论

  • 共0条 分0页

发表评论

  • 昵称:
  • 内容: