禁止搜索引擎的爬虫 - 养在鱼缸的鱼 - ITeye博客

`

limon87

浏览: 68391 次
性别:
来自: 广州

最近访客更多访客>>

yuyajunfaith

u012363178

小仙女思密达

jimchas

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

禁止搜索引擎的爬虫

搜索引擎百度

阅读更多

拦截所有搜索引擎把网页收录：

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

只是拦截百度蜘蛛爬取网页，而允许其他搜索引擎收录：

<META NAME="baiduspider" CONTENT="NOINDEX, NOFOLLOW">

允许搜索引擎收录你的网页，但禁止其追踪外部链接：

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

允许搜索引擎收录你的网页，但禁止其收录网页上的图片：

<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX">

分享到：

xampp下mysql重命名 | windows xp 下memcache拓展的安装

2010-12-09 09:41
浏览 901
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例: 代码如下: #全局配置 limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m; #某个server中 limit_req zone=anti_spider burst=30 nodelay; ... ...超过设置的限定频率，就...附：nginx中禁止屏蔽网络爬虫代码如

apache禁止搜索引擎收录、网络爬虫采集的配置方法: Apache中禁止网络爬虫，之前设置了很多次的，但总是不起作用，原来是是写错了，不能写到Dirctory中，要写到Location中代码如下: SetEnvIfNoCase User-Agent “spider” bad_bot BrowserMatchNoCase bingbot bad_...

Nginx禁止指定UA访问的方法: 本文介绍 Nginx 禁止...禁止搜索引擎爬虫因为你懂的原因，并不是太希望 Baidu 这类爬虫来我的网站，所以在 Nginx 中使用 if 对 UA 进行判断： if ($http_user_agent ~* qihoobot|Baidu|Baiduspider|Baiduspider-ima

章鱼搜索 3亿资源: 章鱼搜索从BT网络里收录了互联网中海量的电影，音乐，游戏，书籍等资源，允许用户对资源进行预览和试看，是史上最全的资源搜索引擎工具，没有之一。像谷歌、百度等通用搜索引擎一样，章鱼搜索目前无法具备对盗版等...

linux的apache2.4限定某个目录禁止解析PHP及user_agent与PHP相关配置1: >限制user_agentuser_agent可以理解为浏览器标识，针对user_agent来限制一些访问，比如可以限制一些不太友好的搜索引擎“爬虫”，你之所以

PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT: 常用搜索引擎名与 HTTP_USER_AGENT对应值百度baiduspider 谷歌googlebot 搜狗sogou 腾讯SOSOsosospider 雅虎slurp 有道youdaobot Bingbingbot MSNmsnbot Alexais_archiver function is_crawler() { $userAgent = ...

mycrawler:这是DieselNiu的爬虫和ES数据分析的实例: 这是一个特别针对的多线程的网络爬虫,并可以用Elasticsearch新闻搜索引擎实现了快速的文本内容搜索. Build With 项目原则使用Git进行版本控制，使用Github+主干分支模型进行开发,禁止直接push到主干分支,所有的变更...

crawlertrap:禁止忽略robots.txt的爬网机器人: 通常，您希望您的网站被尽可能多的搜索引擎索引。但是，也有一些“不良”网站会抓取您的网站并对其进行扫描以查看电子邮件或任何安全漏洞。这个怎么运作搜寻器进入您的网站并开始搜寻过程。它会打开一个网站并...

winform模拟网络蜘蛛源码: 爬虫礼仪遵循爬虫禁止协议、以及避免对服务器资源的过度使用等性能优化用UDP取代封装好的HttpWebRequest/Response DNS缓存异步的DNS地址解析硬盘缓存或内存数据库以避免频繁的磁盘寻道分布式爬虫以扩展单机...

WebCollector和ElasticSearch在高校网站群敏感词检测中的应用研究: 通过研究相关材料文献和技术文档，研究相关系统设计案例，结合实际情况设计和实现一个能运行的系统，得出基于Webcollector爬虫框架和ElasticSearch搜索引擎设计和实现网站群敏感词检测系统的可行性。

hexo-moments-js:通过js加载的轻量化朋友圈网页模板: hexo-moments-js 通过js加载的轻量化朋友圈网页模板爬虫配置教程页面部署方式修改api地址，在需要加载的页面添加moments.js，在需要加载的页面添加id为moments_container的div即可。... //禁止搜索引擎抓取

精易模块[源码] V5.15: 2、改名“文件_搜索1”改为“文件_搜索_深度”并修正备注及深度问题，感谢易友【@小爬虫】反馈。 3、改善“时间_取现行时间戳”优化代码，提高执行效率，感谢易友【@小爬虫】反馈。 4、改善“文本_逐字分割”改善...

Global site tag (gtag.js) - Google Analytics