python爬取免费代理并验证代理是否可用 分享一个python脚本,使用代理ip来访问网页,方便抓取数据什么的~并自动验证ip是否可以用 什么情况下会用到代理IP?比如你要抓取一个网站数据,该网站有100万条内容,他们做了IP限制,每个IP每小时只能抓1000条,如
分享一个python脚本,使用代理ip来访问网页,方便抓取数据什么的~并自动验证ip是否可以用
什么情况下会用到代理IP?比如你要抓取一个网站数据,该网站有100万条内容,他们做了IP限制,每个IP每小时只能抓1000条,如果单个IP去抓因为受限,需要40天左右才能采集完,如果用了代理IP,不停的切换IP,就可以突破每小时1000条的频率限制,从而提高效率。
脚本开始:
import requests
from lxml import etree
# 获取快代理首页的代理
def get_proxy_list():
url = "https://www.jxmtjt.com/"
payload = {}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
'Accept': 'application/json, text/javascript, */*; q=0.01',
}
response = requests.request("GET", url, headers=headers, data=payload)
res = []
_ = etree.HTML(response.text)
type_dct = {
"HTTP": "http://",
"HTTPS": "https://"
}
data_list = _.xpath("//tbody/tr")
for data in data_list:
ip = data.xpath("./td[1]/text()")[0]
port = data.xpath("./td[2]/text()")[0]
type = data.xpath("./td[4]/text()")[0]
res.append(type_dct[type] + ip + ':' + port)
return res
# 测试代理
def check(proxy):
href = 'http://www.baidu.com/'
if 'https' in proxy:
proxies = {'https': proxy}
else:
proxies = {'http': proxy}
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'
}
try:
r = requests.get(href, proxies=proxies, timeout=5, headers=headers)
if r.status_code == 200:
return True
except:
return False
if __name__ == '__main__':
proxy_list = get_proxy_list()
print(proxy_list)
for p in proxy_list:
print(p, check(p))
大家代码复制后,把获取代理ip的网址改一改就可以用了,代码我一直在用,大家也可以cnblogs,百度搜索一下有没有免费的代理ip获取网址~
到此这篇关于python爬取免费代理并验证是否可用的文章就介绍到这了,更多相关python爬取免费代理内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
沃梦达教程
本文标题为:python爬取免费代理并验证代理是否可用
猜你喜欢
- 在centos6.4下安装python3.5 2023-09-04
- windows安装python2.7.12和pycharm2018教程 2023-09-03
- Python之路-Python中的线程与进程 2023-09-04
- python中列表添加元素的几种方式(+、append()、ext 2022-09-02
- Python实现将DNA序列存储为tfr文件并读取流程介绍 2022-10-20
- Python Pandas如何获取和修改任意位置的值(at,iat,loc,iloc) 2023-08-04
- python中defaultdict用法实例详解 2022-10-20
- Python 保存数据的方法(4种方法) 2023-09-04
- python线程池ThreadPoolExecutor与进程池ProcessPoolExecutor 2023-09-04
- CentOS7 安装 Python3.6 2023-09-04