`
limon87
  • 浏览: 68391 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

禁止搜索引擎的爬虫

阅读更多

 

拦截所有搜索引擎把网页收录:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

只是拦截百度蜘蛛爬取网页,而允许其他搜索引擎收录: 

<META NAME="baiduspider" CONTENT="NOINDEX, NOFOLLOW">

允许搜索引擎收录你的网页,但禁止其追踪外部链接:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

允许搜索引擎收录你的网页,但禁止其收录网页上的图片:

<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX">

分享到:
评论

相关推荐

    Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例

    代码如下: #全局配置 limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m; #某个server中  limit_req zone=anti_spider burst=30 nodelay; ... ...超过设置的限定频率,就...附:nginx中禁止屏蔽网络爬虫 代码如

    apache禁止搜索引擎收录、网络爬虫采集的配置方法

    Apache中禁止网络爬虫,之前设置了很多次的,但总是不起作用,原来是是写错了,不能写到Dirctory中,要写到Location中 代码如下: SetEnvIfNoCase User-Agent “spider” bad_bot BrowserMatchNoCase bingbot bad_...

    Nginx禁止指定UA访问的方法

    本文介绍 Nginx 禁止...禁止搜索引擎爬虫 因为你懂的原因,并不是太希望 Baidu 这类爬虫来我的网站,所以在 Nginx 中使用 if 对 UA 进行判断: if ($http_user_agent ~* qihoobot|Baidu|Baiduspider|Baiduspider-ima

    章鱼搜索 3亿资源

    章鱼搜索从BT网络里收录了互联网中海量的电影,音乐,游戏,书籍等资源,允许用户对资源进行预览和试看,是史上最全的资源搜索引擎工具,没有之一。 像谷歌、百度等通用搜索引擎一样,章鱼搜索目前无法具备对盗版等...

    linux的apache2.4限定某个目录禁止解析PHP及user_agent与PHP相关配置1

    &gt;限制user_agentuser_agent可以理解为浏览器标识,针对user_agent来限制一些访问,比如可以限制一些不太友好的搜索引擎“爬虫”,你之所以

    PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT

    常用搜索引擎名与 HTTP_USER_AGENT对应值 百度baiduspider 谷歌googlebot 搜狗sogou 腾讯SOSOsosospider 雅虎slurp 有道youdaobot Bingbingbot MSNmsnbot Alexais_archiver function is_crawler() { $userAgent = ...

    mycrawler:这是DieselNiu的爬虫和ES数据分析的实例

    这是一个特别针对的多线程的网络爬虫,并可以用Elasticsearch新闻搜索引擎实现了快速的文本内容搜索. Build With 项目原则 使用Git进行版本控制,使用Github+主干分支模型进行开发,禁止直接push到主干分支,所有的变更...

    crawlertrap:禁止忽略robots.txt的爬网机器人

    通常,您希望您的网站被尽可能多的搜索引擎索引。 但是,也有一些“不良”网站会抓取您的网站并对其进行扫描以查看电子邮件或任何安全漏洞。这个怎么运作搜寻器进入您的网站并开始搜寻过程。 它会打开一个网站并...

    winform模拟网络蜘蛛源码

    爬虫礼仪 遵循爬虫禁止协议、以及避免对服务器资源的过度使用等 性能优化 用UDP取代封装好的HttpWebRequest/Response DNS缓存 异步的DNS地址解析 硬盘缓存或内存数据库以避免频繁的磁盘寻道 分布式爬虫以扩展单机...

    WebCollector和ElasticSearch在高校网站群敏感词检测中的应用研究

    通过研究相关材料文献和技术文档,研究相关系统设计案例,结合实际情况设计和实现一个能运行的系统,得出基于Webcollector爬虫框架和ElasticSearch搜索引擎设计和实现网站群敏感词检测系统的可行性。

    hexo-moments-js:通过js加载的轻量化朋友圈网页模板

    hexo-moments-js 通过js加载的轻量化朋友圈网页模板 爬虫配置教程 页面部署方式 修改api地址, 在需要加载的页面添加moments.js, 在需要加载的页面添加id为moments_container的div即可。... //禁止搜索引擎抓取

    精易模块[源码] V5.15

    2、改名“文件_搜索1”改为“文件_搜索_深度”并修正备注及深度问题,感谢易友【@小爬虫】反馈。 3、改善“时间_取现行时间戳”优化代码,提高执行效率,感谢易友【@小爬虫】反馈。 4、改善“文本_逐字分割”改善...

Global site tag (gtag.js) - Google Analytics