欢迎光临
微商代理新产品网

怎么正确撰写robots文件?

怎么正确撰写robots文件?首先我们来了解下robots文件,它是一个纯文本文件,主要是为搜索引擎蜘蛛准备的,与用户关系不大,它是蜘蛛访问网站首先查看的文件,就是网站和蜘蛛之间的一个协议,告诉哪些网页可收录,哪些不允许收录。

robots文件

robots文件用途:

robots.txt是百度蜘蛛会遵循协议,通过根目录创建的robots.txt,可以声明哪些页面不想被百度蜘蛛爬行并收录,每个网站可以自行控制网站哪些被百度蜘蛛收录,或指定百度蜘蛛能收录指定的内容。当百度蜘蛛访问站点时,首先它会检查该站点根目录下是否存在robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就在该文件中的限制内容以外访问。

robots通常屏蔽内容:

屏蔽隐私页面,后台登陆页面,缓存页面,图片目录,css目录,模板页面等内容,或者屏蔽一些不想传递权重的页面可以通过Disallow命令来进行设置。

robots文件 设置的格式:

  •   User-agent: 定义搜索引擎的类型
  •   Crawl-delay: 定义抓取延迟
  •   Disallow:定义禁止搜索引擎收录的地址
  •   Allow: 定义允许搜索引擎收录的地址
  •        Sitemap:网站地图

robots文件撰写注意事项:

  • 如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
  • 必须命名为:robots.txt,都是小写,robot后面加”s”。
  • robots.txt必须放置在一个站点的根目录下。
  • 一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
  • 有几个禁止,就得有几个Disallow函数,并分行描述。
  • 至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
  • 注意空格,Disallow:  /,Disallow和/之间有无空格那是天壤之别。
赞(0)
未经允许不得转载:首页 » 怎么正确撰写robots文件?
分享到: 更多 (0)

推荐微商代理新产品 ,我们是认真的!