百度Sitemap制作提交方法

百度Sitemap制作提交方法

我们先来看什么是百度sitemap

百度SiteMap,又叫百度网站地图,其实百度本没有图,用百度的人多了,自然就有了图。呵呵,为什么这么说呢。首先百度本身不支持向Google一样的提交xml格式的网站地图的入口。但是根据百度官方描述,百度有自己的《互联网新闻开放协议》。根据站长们的俗称,也就把它称作百度sitemap了。也许这么说大家更容易理解一些。

从官方的公布的文档名称,我们清楚的知道这个 XML 文档只针对的是站内的新闻,似乎对我们没有什么价值。这点就反映在我们对“新闻”一词的理解上,我认为百度的“新闻”一词应该包括:新闻、文章、文档资料等,而这些都是很多网站所必备的东西。而且蜘蛛是跟据链接来爬行的,所以当我们的网站通过互联网开放协议的审查后,百度就会来抓取这个 xml文档里的信息,而且还会顺着链接找到其它的内容,百度也会连这些内容一并抓取了。

那百度的sitemap(百度网站地图)到底如何制作呢?其实方法很简单,也是类似于谷歌地图的方法,只是参数需要说明一下,明白这个道理,地图便不再是问题了。

那下面我们就来了解一下百度地图的组成参数及说明,其中带星号的为必选参数。

*< website>——站点地址。
*< webmaster>——负责人员的 Email。当有必要时,我们通过这个地址与您联系。
*<  updateperi>——更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。
*< item>——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。 
*< title>——新闻标题。
*< link>——新闻 url 地址,与单篇新闻一一对应;若分页的新闻存在多个 URL,相当于多篇新闻。
< description>——新闻内容简介。
*< text>——完整的新闻正文(仅包含正文文字,不包含 HTML 语言等其它字符)。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。
*< image>——新闻正文内相关图片,采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。
< headlineimg>——为有可能成为头条的新闻制作的头条图,采用绝对地址。
< keywords>——反映新闻主题内容的一个或多个关键词,关键词之间以空格隔开。此项仅作为参考,检索结果不完全依赖于此标签中的内容。
< category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。
< author>——新闻作者,可以为机构或个人 。
< source>——新闻来源,即原创媒体或其它机构 。
*<  pubdate>——新闻发布时间,与该篇新闻 HTML 页面上的发布时间保持一致。请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。

百度sitemap的一大缺点就是文档的内容全部放在text标签内,这样一来,一旦被人恶意利用,那网站就很容易被别人快速的copy了。

根据上面的参数,我们就可以很容易的按照谷歌地图的模式,编写一个百度地图。

那地图制作完毕之后,如何向百度提交呢。其实百度是没有提交地图入口的,那么按照百度默认的方法请将 XML 文件命名为 sitemap_baidu.xml 上传到您网站根目录下,并保证文件所在的url 地址能够被百度spider正常访问。例如,网站为 www.elingxi.com,则将 xml 文件上传至 www.elingxi.com/sitemap_baidu.xml。当百度的蜘蛛路过的时候就自动去爬你了,但百度同时声明不保证一定能收录您提交的全部内容。