专栏中心

EEPW首页 > 专栏 > python和爬虫代理的关联

python和爬虫代理的关联

发布人:laical 时间:2020-08-05 来源:工程师 发布文章

HTTP就相当于一个传输机制,在甲方和乙方的中间传输自己想要的一种数据。

怎么在python中使用爬虫代理。http代理是爬虫研发中不可缺少的一部分。假如需要大量采集互联网网站上的数据,长时间访问必定网站会出现反爬。为了避免出现这种问题,一般需要把请求分配到其他不同的爬虫程序上。

由于部分公司为了降低成本,就会再互联网网站上采集一些免费的肉鸡代理IP或者购买付费代理去进行采集。


互联网上的免费代理,大家网上随便搜索都能出来一大批,至于网上的免费代理的安全性和可用性,一般的爬虫研发一测试就知道好与坏。假如数据采集中 有部分内容包含 需要登录等的话 还是不要用网上的免费IP。可以自己搭建一个IP池或者购买亿牛云的付费代理


python爬虫使用http代理:
        #! -*- encoding:utf-8 -*-        import base64                    import sys        import random        PY3 = sys.version_info[0] >= 3        def base64ify(bytes_or_str):            if PY3 and isinstance(bytes_or_str, str):                input_bytes = bytes_or_str.encode('utf8')            else:                input_bytes = bytes_or_str            output_bytes = base64.urlsafe_b64encode(input_bytes)            if PY3:                return output_bytes.decode('ascii')            else:                return output_bytes        class ProxyMiddleware(object):                
            def process_request(self, request, spider):                # 代理服务器(产品官网 www.16yun.cn)                proxyHost = "t.16yun.cn"                proxyPort = "31111"                # 代理验证信息                proxyUser = "username"                proxyPass = "password"                request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)                # 添加验证头                encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)                request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass                                    # 设置IP切换头(根据需求)                tunnel = random.randint(1,10000)                request.headers['Proxy-Tunnel'] = str(tunnel)

总结:无论是什么爬虫,在爬虫过程中http代理很重要。当然如果要高效安全稳定的采集数据,还是需要在网上购买一些付费的亿牛云高匿爬虫代理。


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词:

相关推荐

研华发布基于AMD平台的新一代边缘AI解决方案

USB 通用串行总线技术规范简介 [简体中文]

【电动车和能效亮点】格罗方德与台积电携手,推进面向多元应用场景的氮化镓技术研发

AI点亮生态纪元:IDC 2026年中国智能眼镜市场十大洞察

USB技术手册

SolidWorks2003PDF教程

【电动车和能效亮点】Wallbox发布Supernova PowerRing快充系统,打造高效且可扩展的快充服务

创芯赋能智能生态!汇顶科技亮相2025英特尔技术创新与产业生态大会

使用低引脚数USB开发工具包(DM164127)在应用中添加USB连接

TechInsights 拆解:蔚来亚当超级计算机

Microchip苹果配件开发工具包

Usb Mouse 鼠标设计实例资料包之一

资源下载 2008-01-05

从最赚钱公司 Linear 看中国模拟半导体差距

视频 2012-05-02

Microchip PIC24F32KA304超低功耗16位单片机

基于RE46C190的光电式烟雾报警器的评估板(用于家用火灾报警器的RE46C190芯片)

极端环境生存之道:了解MEMS传感器中的冲击与振动问题

TechInsights 拆解:Apple HomePod 第二代

vxWorks下pppoe

escene 2005-09-28

TechInsights 拆解:华为 96 线激光雷达

汽车电子 2025-11-20

澄清声明:关于应用材料公司在中国业务的报道

pppoe server

escene 2005-09-27

Usb Mouse 鼠标设计实例资料包之二

资源下载 2008-01-05
更多 培训课堂
更多 焦点
更多 视频

技术专区