准备写个自动抓内容的小脚本

| | Comments (0) | TrackBacks (0)
最近想写个自动抓取内容的小机器人,想了想不难,列出来一个基本的逻辑,只要按照下面的逻辑把脚本实现即可:

1、上一个抓取进程存在的情况下不抓;

2、网络不通的时候不进行抓取;

3、地址重复的不抓;

4、抓取回来之后发现内容相同的舍弃;

5、内容不好看的舍弃;

6、内容敏感或被禁止的舍弃;

7、内容进行初步替换并提交;

0 TrackBacks

Listed below are links to blogs that reference this entry: 准备写个自动抓内容的小脚本.

TrackBack URL for this entry: http://shangning.net/chinese/mt-tb.cgi/936

Leave a comment




友情链接 自然乱卷的博客 IO Language 白卉子的个人博客 孟子叶的个人博客 于新博的个人博客 周文艺 S9600初级程序员论坛 又听小楼风雨声 尚宁的英文Blog Mr.Shang 歪西网-石景山地区门户 卡客族