最近想写个自动抓取内容的小机器人,想了想不难,列出来一个基本的逻辑,只要按照下面的逻辑把脚本实现即可:
1、上一个抓取进程存在的情况下不抓;
2、网络不通的时候不进行抓取;
3、地址重复的不抓;
4、抓取回来之后发现内容相同的舍弃;
5、内容不好看的舍弃;
6、内容敏感或被禁止的舍弃;
7、内容进行初步替换并提交;
1、上一个抓取进程存在的情况下不抓;
2、网络不通的时候不进行抓取;
3、地址重复的不抓;
4、抓取回来之后发现内容相同的舍弃;
5、内容不好看的舍弃;
6、内容敏感或被禁止的舍弃;
7、内容进行初步替换并提交;
Leave a comment