找回密码
 注册
搜索
免费空间 免费域名 免费AI 老牌主机商首月仅1美分!27美元/年!Spaceship优惠码 Namecheap优惠码阿里云2核2G3M新老续费同享99元/年!
查看: 230|回复: 2

[程序代码] 关于robots.txt

[复制链接]
发表于 2010-9-28 09:26:22 | 显示全部楼层 |阅读模式
本帖最后由 jason 于 2010-9-28 09:38 编辑

User-agent: *
Disallow:

只禁止抓取admin目录怎么写?这样没问题吧?.

User-agent: *
Disallow: /admin

css、js、模板、/images之类的应该禁止抓取吗?
发表于 2010-9-28 09:47:52 | 显示全部楼层
写成这样拒绝任何机器人抓取全站(前提是机器人遵守ROBOTS协议)
  1. User-agent: *
  2. Disallow:/
复制代码
允许抓取但禁止抓取admin目录应写为
  1. User-agent: *
  2. Allow: /
  3. Disallow:/admin/
复制代码
建议拒绝百度抓取图片和音乐类文件否则被收录会刷掉很多流量...
允许BAIDU抓取 但禁止抓图片音乐FLASH:
  1. User-agent: Baiduspider
  2. Allow: /
  3. Disallow: *.jpg$
  4. Disallow: *.jpeg$
  5. Disallow: *.gif$
  6. Disallow: *.png$
  7. Disallow: *.bmp$
  8. Disallow: *.mp3$
  9. Disallow: *.wmv$
  10. Disallow: *.flv$
  11. Disallow: *.swf$
复制代码
GOOGLEBOT会抓取图片JS等文件 但不会收录进搜索引擎可以允许
但GOOGLEBOT能抓取收录PDF和SWF建议禁止
发表于 2010-9-28 10:26:18 | 显示全部楼层
学习下,O(∩_∩)O~
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|免费吧论坛

GMT+8, 2024-5-18 16:52 , Processed in 0.028981 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表