py抓取并验证可用代理脚本

发布时间:May 18, 2015 // 分类:工作日志,代码学习,python // No Comments

抓取的是kjson.com的代理,代理的质量一般般。

#/usr/bin/python
#coding:utf8
import urllib2
from optparse import OptionParser
import sys,time,random,re
from pyquery import PyQuery as jq

def proxy_craw(target,output):
    w = open(output,'a')
    data = urllib2.urlopen('http://www.kjson.com/proxy/index/' + str(target)).read()
    c = jq(data)
    for tr in c('.proxy-table').find('.plist'):
        data_id = jq(tr).find('a').attr('data-id')
        if checkproxy(data_id):
                wr = jq(tr).find('td').eq(0).text() + u"\t"
                print wr
                port = jq(tr).find('.enport').text()
                wr += str(decodes(port)) + "\t"
                wr += jq(tr).find('td').eq(2).text() + "\t"
                wr += jq(tr).find('td').eq(6).text() + "\r\n"
                w.write(wr.encode('utf-8'))
        else:
                continue
    w.close()

def checkproxy(dataid):
        m = random.randint(1,999999)
        data = urllib2.urlopen('http://www.kjson.com//proxy/vproxy/?rnd=' + str(m) + '&id=' + dataid).read()
        res = re.findall(r'(\w*[0-9]+)\w*',data)
        if res[0] == '1':
                return True
        else:
                return False

def decodes(code):
    str1 = 'ABCDEFGHIG'
    a = code
    c = []
    p = 0
    l = len(a)
    for i in a:
        c.append(str1.index(i))
    t = ''
    for i in c:
        t += str(i)
    p = int(t)
    return  int(p) >> 2

if __name__ == "__main__":
    parser = OptionParser()
    parser.add_option("-o","--output",dest="filename",
                      help="Export File name",metavar="FILE")
    (opts,args) = parser.parse_args()
    filename = opts.filename
    p = jq(url='http://www.kjson.com/proxy/index/1')
    endstr = p('.page a').eq(11).attr('href') #獲取尾頁
    end = int(endstr[13:])
    for PageNum in range(1,end + 1):
        if PageNum/40 == 0:
            time.sleep(3)
        try:
            proxy_craw(PageNum,filename)
        except KeyboardInterrupt:
            exit()

使用办法

python kjson.com_proxy_crawer.py -o out.txt

标签:proxy

添加新评论 »

分类
最新文章
最近回复
  • 没穿底裤: 最近发现的新版本可以装在LINUX了。但是API有点变化
  • 没穿底裤: 暂时好像没有看到这个功能.
  • 没穿底裤: 这个只是一个分析,并不是使用方法哟
  • 没穿底裤: 抱歉,很久没有打理了。会不会你使用的是12版本。目前还没有遇到过这种情况
  • bao song: http://0cx.cc/php_decode_shell.jspx 这个怎么用,代码提示...