共计 820 个字符,预计需要花费 3 分钟才能阅读完成。
网络爬虫最终要的资源就是 IP 地址,尤其是在各大网站纷纷把自家数据当初看家宝贝的“大数据时代”。即使 IP 地址多了,爬虫改成分布式,管理那么多服务器上的爬虫也是够头疼的。一种方法就是配置代理服务器,爬虫只在几台机器是跑就可以啦。
配置多 IP 地址
Linux(以 Ubuntu 为例)配置单机多 IP 地址还是很简单的,编辑 /etc/netword/interfaces 文件即可:
auto eno1:90iface eno1:0 inet static
address 192.168.8.90
netmask 255.255.255.0
gateway 192.168.8.1auto eno1:91iface eno1:91 inet static
address 192.168.8.91
netmask 192.168.8.255
gateway 192.168.8.1
以上配置中,eno1 是网卡的名字,eno1:90 是配置在该网卡的一个虚拟网卡的名字,并给该虚拟网卡配置了 IP:192.168.8.90。按照这个规则,可以给 eno1 这个网卡绑定很多 IP,如果这些 IP 都是公网 IP,就可以把它当配置成爬虫的多代理服务。
配置 squid3 多 IP 出口
机器有了多 IP,如果不对 squid 做相应的配置,出口 IP 还只能是一个,其他 IP 都不能用得上。
编辑 /etc/squid/squid.conf 配置文件,做相应配置
acl ip_90 myip 192.168.8.90tcp_outgoing_address 192.168.8.90 ip_90
acl ip_91 myip 192.168.8.91tcp_outgoing_address 192.168.8.91 ip_91
以上配置就是对每个进来的 IP 的请求设置出口 IP,从而达到一机多 IP 代理的实现。
正文完
星哥玩云-微信公众号