如何面对博文被抓取-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

如何面对博文被抓取

阅读量：6389 次

发布时间：2019-06-23

本文共 543 字，大约阅读时间需要 1 分钟。

昨天把hexo博客的url的日期去掉了，号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候，不小心多带了一个空格，导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾，隐去了作者信息。有的给个原文连接，有的是啥也不给。

昨晚搞到1点多，才搞出来。然后轻轻松松被拿走，然后加广告。。。

所谓的CC by xxx 没有任何意义。看到有个爬虫专门把文章转换成繁体的(好几个)，有个更牛逼, 把标题和作者改成自己，图片添加了自己的水印(清屏网)。

所以，花样百出，防不胜防。

首先，应该如何看待这个问题？

我认为既然选择了互联网，就拥抱这种现象吧。起点的作者总是在写文章时不时的加一句看盗版的xxx, 因为这关系到了作者的切身意义，都是钱啊。而写博客的呢，这又是为了什么？是为了记录。那么，被爬去也是没啥坏处的，坏就坏在盗版小说会标注作者，盗版博客会去掉作者。

怎么解决

全手工的盗版，是防不住的。关键是大量的爬虫盗版。这个可以有。爬虫通常掐头去尾，所以把作者写到博客里，把作者写到代码注释里，把作者写到demo里。如果对于盗图有意见，可以加防盗链，可以加水印，或者制作图片的时候就加上作者。

唯有不断学习方能改变！ --

Ryan Miao

转载地址：http://jzcha.baihongyu.com/

你可能感兴趣的文章

进制转换展示

张泉灵:做投资这半年哭过的时间比前十年都多

c++将bool变量以文字形式打印

洛谷P1111 修复公路并查集图论最小生成树

微名汇-微信公众平台功能开发（微信聊天机器人）

A2W和W2A ：很好的多字节和宽字节字符串的转换宏

_T和_L的区别

我个人的javascript和css命名规范

android ANR产生原因和解决办法

kylin的安装与配置

我的java学习之路--Reflect专题

Android Intent的setClass和setClassName的区别

php-fpm nginx 使用 curl 请求 https 出现 502 错误

西宁海关首次对外展示截获500余件有害生物标本

泸州移动能源产业园首片薄膜电池组件成功下线

韩国瑜会见陆委会主委陈明通：别给高雄念紧箍咒

交通部：加大人工售票力度保障农民工春运出行

物联网的学术层、应用层和行为层的基本介绍

初探github（一）

源码分析之 LinkedList

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-14 20:12:18 当前IP: 3.144.242.235 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我