博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
如何面对博文被抓取
阅读量:6389 次
发布时间:2019-06-23

本文共 543 字,大约阅读时间需要 1 分钟。

spider-100160327-large.jpg

昨天把hexo博客的url的日期去掉了,号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候,不小心多带了一个空格,导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾,隐去了作者信息。有的给个原文连接,有的是啥也不给。

昨晚搞到1点多,才搞出来。然后轻轻松松被拿走,然后加广告。。。

所谓的CC by xxx 没有任何意义。看到有个爬虫专门把文章转换成繁体的(好几个),有个更牛逼, 把标题和作者改成自己,图片添加了自己的水印(清屏网)。

所以,花样百出,防不胜防。


首先,应该如何看待这个问题?

我认为既然选择了互联网,就拥抱这种现象吧。起点的作者总是在写文章时不时的加一句看盗版的xxx, 因为这关系到了作者的切身意义,都是钱啊。 而写博客的呢,这又是为了什么? 是为了记录。那么,被爬去也是没啥坏处的,坏就坏在盗版小说会标注作者,盗版博客会去掉作者。

怎么解决

全手工的盗版,是防不住的。关键是大量的爬虫盗版。这个可以有。爬虫通常掐头去尾,所以把作者写到博客里,把作者写到代码注释里,把作者写到demo里。如果对于盗图有意见,可以加防盗链,可以加水印,或者制作图片的时候就加上作者。

唯有不断学习方能改变! --
Ryan Miao

转载地址:http://jzcha.baihongyu.com/

你可能感兴趣的文章
进制转换展示
查看>>
张泉灵:做投资这半年哭过的时间比前十年都多
查看>>
c++将bool变量以文字形式打印
查看>>
洛谷P1111 修复公路 并查集 图论 最小生成树
查看>>
微名汇-微信公众平台功能开发(微信聊天机器人)
查看>>
A2W和W2A :很好的多字节和宽字节字符串的转换宏
查看>>
_T和_L的区别
查看>>
我个人的javascript和css命名规范
查看>>
android ANR产生原因和解决办法
查看>>
kylin的安装与配置
查看>>
我的java学习之路--Reflect专题
查看>>
Android Intent的setClass和setClassName的区别
查看>>
php-fpm nginx 使用 curl 请求 https 出现 502 错误
查看>>
西宁海关首次对外展示截获500余件有害生物标本
查看>>
泸州移动能源产业园首片薄膜电池组件成功下线
查看>>
韩国瑜会见陆委会主委陈明通:别给高雄念紧箍咒
查看>>
交通部:加大人工售票力度保障农民工春运出行
查看>>
物联网的学术层、应用层和行为层的基本介绍
查看>>
初探github(一)
查看>>
源码分析之 LinkedList
查看>>