"); //-->
在互联网爬虫中经常会有想采集数据而出现反爬从而无法进行正常采集。当一个IP长时间反复去访问一个网站,就会触碰网站的反爬机制,如何解决这种,就需要降低访问频率或者使用更多的代理IP去访问。
首先需要配置爬虫程序,然后控制代理IP去访问目标网站
爬虫代理的使用:import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;public class Demo { public static void main(String[] args) { try{ // 代理服务器(产品官网 www.16yun.cn) final static String ProxyHost = "t.16yun.cn"; final static String ProxyPort = "31111"; System.setProperty("http.proxyHost", ProxyHost); System.setProperty("https.proxyHost", ProxyHost); System.setProperty("http.proxyPort", ProxyPort); System.setProperty("https.proxyPort", ProxyPort); // 代理验证信息 final static String ProxyUser = "username"; final static String ProxyPass = "password"; System.setProperty("http.proxyUser", ProxyUser); System.setProperty("http.proxyPassword", ProxyPass); System.setProperty("https.proxyUser", ProxyUser); System.setProperty("https.proxyPassword", ProxyPass); // 设置IP切换头 final static String ProxyHeadKey = "Proxy-Tunnel"; // 设置Proxy-Tunnel Random random = new Random(); int tunnel = random.nextInt(10000); String ProxyHeadVal = String.valueOf(tunnel); // 处理异常、其他参数 Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).get(); if(doc != null) { System.out.println(doc.body().html()); } }catch (IOException e) { e.printStackTrace(); } }}爬虫用户需要注意代码里面4个参数,proxyHost、proxyPort、proxyUser、proxyPass 分别对应爬虫代理的域名、端口、用户名和密码,正式开启代理之后,将这4个变量设置一下,就可以直接复制demo运行
无论是什么爬虫语言框架,在采集数据的过程中都会面临IP被封、爬取受限、违法操作等许多问题,所以在爬取数据之前,需要了解好预爬网站是否涉及违法操作,找到合适的代理IP控制频率去访问网站等一系列问题。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
高功率、高电压:Pickering舌簧继电器全新升级至200W
电子科技大学--嵌入式系统应用开发技术17
日本丰田明年推出「固态电池电动车」 可能改写全球车业格局
Wolfspeed顺利完成财务重组,增强财务实力
电子科技大学--嵌入式系统应用开发技术19
逐点发布人工智能SpacialEngine空间媒体技术平台
《PCB互连线间耦合噪声的模拟及其分析》.
高通收购硬件公司Arduino,深耕机器人领域
当一颗AK47子弹射穿人体之后
电子科技大学--嵌入式系统应用开发技术18
服务即软件Service-as-software:面向企业的新控制平面
哪里有二手的Arm9仿真器卖啊?
PCB-LAYOUT-EMC技術簡介1
康佳60P机芯背投彩电电源供电概况
《电子设备PCB电磁兼容设计的分析》.
电子科技大学--嵌入式系统应用开发技术20
电子科技大学--嵌入式系统应用开发技术16
OpenAI新计划 设备厂抢上车
软银将以 54 亿美元收购ABB机器人业务,推动人工智能和机器人技术的融合
《PCB互连线间耦合噪声的模拟及其分析》.
康佳60P机芯背投彩电场故障保护电路
OpenAI奥特曼呼吁台积电扩大产能 不转向英特尔
转让新产品
日立NP8C机芯电源电路图
PCB-LAYOUT-EMC技術簡介2
松下M12H机芯电源电路图
内存模组厂十一长假大盖牌! 消费性DRAM暂停报价
康佳60P机芯背投彩电电源与保护电路
使用AT91RM9200的,请进。
参加婚礼有感