专栏中心

EEPW首页 > 专栏 > 爬虫代理使用的相关代码

爬虫代理使用的相关代码

发布人:laical 时间:2020-08-19 来源:工程师 发布文章

在互联网爬虫中经常会有想采集数据而出现反爬从而无法进行正常采集。当一个IP长时间反复去访问一个网站,就会触碰网站的反爬机制,如何解决这种,就需要降低访问频率或者使用更多的代理IP去访问。


首先需要配置爬虫程序,然后控制代理IP去访问目标网站

爬虫代理的使用:
import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;public class Demo {    public static void main(String[] args) {        try{            // 代理服务器(产品官网 www.16yun.cn)            final static String ProxyHost = "t.16yun.cn";            final static String ProxyPort = "31111";            System.setProperty("http.proxyHost", ProxyHost);            System.setProperty("https.proxyHost", ProxyHost);            System.setProperty("http.proxyPort", ProxyPort);            System.setProperty("https.proxyPort", ProxyPort);            // 代理验证信息            final static String ProxyUser = "username";            final static String ProxyPass = "password";            System.setProperty("http.proxyUser", ProxyUser);            System.setProperty("http.proxyPassword", ProxyPass);            System.setProperty("https.proxyUser", ProxyUser);            System.setProperty("https.proxyPassword", ProxyPass);            // 设置IP切换头            final static String ProxyHeadKey = "Proxy-Tunnel";            // 设置Proxy-Tunnel            Random random = new Random();            int tunnel = random.nextInt(10000);            String ProxyHeadVal = String.valueOf(tunnel);            // 处理异常、其他参数            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).get();            if(doc != null) {                System.out.println(doc.body().html());            }        }catch (IOException e)        {            e.printStackTrace();        }    }}

爬虫用户需要注意代码里面4个参数,proxyHost、proxyPort、proxyUser、proxyPass 分别对应爬虫代理的域名、端口、用户名和密码,正式开启代理之后,将这4个变量设置一下,就可以直接复制demo运行

无论是什么爬虫语言框架,在采集数据的过程中都会面临IP被封、爬取受限、违法操作等许多问题,所以在爬取数据之前,需要了解好预爬网站是否涉及违法操作,找到合适的代理IP控制频率去访问网站等一系列问题。


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词:

相关推荐

高功率、高电压:Pickering舌簧继电器全新升级至200W

电子科技大学--嵌入式系统应用开发技术17

日本丰田明年推出「固态电池电动车」 可能改写全球车业格局

Wolfspeed顺利完成财务重组,增强财务实力

电子科技大学--嵌入式系统应用开发技术19

逐点发布人工智能SpacialEngine空间媒体技术平台

《PCB互连线间耦合噪声的模拟及其分析》.

高通收购硬件公司Arduino,深耕机器人领域

机器人 2025-10-10

电子科技大学--嵌入式系统应用开发技术18

服务即软件Service-as-software:面向企业的新控制平面

PCB-LAYOUT-EMC技術簡介1

资源下载 2008-01-11

《电子设备PCB电磁兼容设计的分析》.

电子科技大学--嵌入式系统应用开发技术20

电子科技大学--嵌入式系统应用开发技术16

OpenAI新计划 设备厂抢上车

智能计算 2025-10-10

软银将以 54 亿美元收购ABB机器人业务,推动人工智能和机器人技术的融合

《PCB互连线间耦合噪声的模拟及其分析》.

OpenAI奥特曼呼吁台积电扩大产能 不转向英特尔

PCB-LAYOUT-EMC技術簡介2

资源下载 2008-01-11

内存模组厂十一长假大盖牌! 消费性DRAM暂停报价

更多 培训课堂
更多 焦点
更多 视频

技术专区