网站常见问题:关于Google网站收录的常见问题

■ 网站设计是否对搜索引擎友好

  1、纯Java网站
  如果你的网站是用纯Java设计的,那么就要小心了,因为Google曾在一些场合明确表示过不会收录用纯Java技术制作的网站。


  2、Flash网站
  如果你的网站大量使用Flash,例如首页为一个Flash动画,并且链接内嵌在Flash中,对这种网站Google是不太感冒的,而且一些搜索引擎(Google、Fast/AllTheWeb等)虽然已能解读图象中的内嵌文字和链接,但并未正式使用在对内部网页的检索上。


  3、纯图象首页
  目前许多网站(尤其是企业网站)将首页设计成仅包含图象的形象页面(splash page),加上网站内容太少,因此常常造成无法成功登录Google。听听Google对此是怎么说的:“We want to point users to content pages,not to doorways or splash screens”。


  4、网页框架(frameset)
  Google可以检索使用网页框架结构的网站,但由于搜索引擎工作方式与一般的网页浏览器不同,因此会造成返回的结果与用户的需求不符,这是搜索引擎所极力要避免的,所以Google在收录网页框架结构的网站时还是有所保留的。如果你非用框架结构不可,可以将相关内容放在<noframes></noframes>标签中。


  5、动态网页
  Google是较早支持动态网页检索的搜索引擎之一,但有一定限度,Google的解释是:“because our web crawler can easily overwhelm and crash sites serving dynamic content, we limit the amount of dynamic pages we index”。

  不过据我们观察,Google现在对动态网页的支持很好。但如果动态网页存在回路(loop),很容易将spider套住让它无法脱身,所以当你找不到其他无法登录Google的原因时,可以试着将动态网页改成静态html文件。


  6、网站内部链接
  网页之间的链接最好是文字链接,其次是图象链接。虽然Google已能跟踪和解析JavaScript和Flash中内嵌的链接,但从搜索引擎友好的角度讲还是不要大量采用JavaScript和Flash链接。


■ 网站/网页访问是否正常

  1、网站访问速度
  你也许想不到,网站访问速度太慢也是影响成功注册Google引擎的原因。这方面我们是有“血”的教训的。如果发现网站响应速度过慢,建议你赶快换一个主机。如果你对登录Google是认真的,多花些钱还是值得的。


  2、网页大小
  虽然网页大小不是最关键的因素,但从搜索引擎友好的角度说,下载越快的网页被成功收录的几率也就越大。至于网页字节数多少合适没有一个正式的标准,一般说法是不超过50K,不过有一点是肯定的,如果你做一个100多K的网页,无论对搜索引擎还是普通浏览者来说都不是件好事吧?


  3、更改文件名
  对网站进行调整时要注意,不要对网页文件名做过多地更改。当Google探测到用户点击的多数是无效连接时,会将你的网页从搜索结果中摘除。如果你必须大面积更改文件名,可以使用主机的301转发功能,将原来的链接指向新的文件(切记不要在原页面设置META Refresh转发)。


提高网站在Google中排名的方法

什么是PageRank?
  Google等新一带搜索引擎的优势之一在于不仅索引量很大,而且还将最好的结果排在搜索结果的最前面,PageRank简单的说类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上PageRank就是基于网页中相互链接关系的分析得出的,由此引出第一个要点:链接就是一切


添加关键字:
  经常添加一些和实际网页内容无关的热门关键比如:“music mp3 download”等,所以新一代的搜索引擎已经不再关心页面头文件中的人工meta keyword声明,而页面标题在搜索引擎的关键词的命中命中过程中往往有着更高的比重,如果一个关键词在标题中命中会比在页面中命中有更高的得分,从而在相应的搜索结果排名中更靠前。


标题长度和内容:
  不要过长,一般在40个字符以内,并充分突出关键词的比重;
  如果更长的标题搜索引擎一般会忽略掉,所以要尽可能将主要关键词放在标题靠前的位置。省略掉不必要的形容词吧,毕竟用户主要通过名词来找到需要的内容。标题内容:尽量用一些别人可以通过关键词找到的字眼(也别太过头,如果标题中的字眼超过1半内容中都没有,有可能被搜索引擎排除出索引),因此基于web日志中来自其他搜索引擎的关键词查询统计非常必要。如果网页很多的话,尽量使用不同的网页标题,争取让自己网站的内容更多的进入搜索引擎索引范围;因为搜索引擎会根据页面内容的相似度把一些内容当成重复页面排除出索引范围;除了外,还可以用标题行突出内容主题,


加强标题的效果;
  尽量使用静态网页:目前能够像Google一样对动态网页进行索引的搜索引擎还比较少,而同样内容的动态网页其权重比静态网页也要低很多。因此无论从效率上讲还是方便搜索引擎收录,使用内容发布系统将网站内容发布成静态网页都是非常必要的。


表现和内容的分离:“绿色”网页
  网页中的javascript和css尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重。总之,应该鼓励遵循w3c的规范,使用更规范的XHTML和XML作为显示格式便于内容更长时间的保存。


让所有的页面都有能够快速入口:
  站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider friendly也是非常重要的。保持网站自身的健康:经常利用坏链检查工具检查网站中是否有死链。


保持网页内容/链接的稳定性和持久性:
  在搜索引擎索引中网页存在的历史也是一个比较重要的因素,而且历史比较久的网页被链接的几率越高。为了保证自己网页能够被比较持久的被其他网站的页面引用,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。要知道,把一个网站和内容在搜索引擎中的排名“培养”的很高是一件非常不容易的事情,谁都不希望好不容易自己的内容被别人找到了,点击却是“404 页面不存在”吧?


文件类型因素:
  Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文档PageRank要高。因此,对于比较重要的文档:技术白皮书,FAQ,安装文档等建议使用PDF PS等高级格式存取,这样在搜索结果中也能获得比较靠前的位置。


隐私保护措施:
  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中哪些内容可以被robot访问,哪些不可以。
Tags:  google收录 网站推广常见问题 网站常见问题

延伸阅读

最新评论

发表评论