怎么找免费代理IP

自媒体 投稿&转载 1775浏览

由于开python培训有讲过爬虫的缘故,这个问题已经被ask无数次了,一般问的基友也都是爬虫防ban用的,那么在此,我把我个人尝试过的代理渠道都写一下。总体来讲,质量好的都不便宜,便宜的质量都比较渣,一分钱一分货

1)通过程序扫出来的代理

通过程序扫IP段、端口找出来的临时性代理。

诸如百度搜索“HTTP代理”,写着“每日更新”、“国内高匿免费”什么的都是这类,购买的话都很廉价。我用过的有:

西刺(免费代理IP_HTTP代理服务器IP_隐藏IP_QQ代理)

快代理(快代理 - 高速http代理ip每天更新)

站大爷

云代理(云代理 - 高速http代理ip每天更新)

......

基本都大同小异,没有哪个好那个坏,几个平台提供的代理至少有3成的重复率。

这类代理,有效期都不高,即便批量验证过在使用时还是会废掉一部分,可以应付低效率的采集、刷单次访问量,但是搞别的的还是算了吧

2)ADSL拨号服务器

ADSL拨号,断线重连切IP,淘宝有卖的,限定地区拨号、全国拨号都有。相对较稳定,至少比扫描出来的强很多,但切换IP耗时较长,需要几秒到1分钟之间。

所以如果采集是每访问一次切一次IP的话,效率会很慢,只能等当前IP被对方ban掉的时候在拨号换新的IP。

去年刷百度下拉、搞百度点击器的代理切换曾用过ADSL拨号,比较稳定,有些效果,当然也用过上面扫出来的代理,太烂,没法用。但是限于换IP需要断线重连,导致不容易并发执行任务,所以要大规模化要有些成本。

ADSL拨号可以应付对效率要求不高的采集、刷访问量、刷点击之类的。

3)第三方访问

比如通过“谷歌网页翻译”、“有道网页翻译”、“http代理浏览器”等第三方访问渠道请求目标网页。

速度慢,且采集捕获目标内容的时候多了很多干扰。

4)VPN软件

诸如“flyvpn”、“green vpn”,采集是IP被ban了直接换一个,VPN软件本身靠谱代理还是挺稳定的,就是人得在电脑旁边,手动换一次。但是偶尔查查几万关键词的百度排名、几万页面收录,用VPN还是挺悠闲的,这点量级总共也换不了多少次。

5)自建代理

买一台服务器,利用squid+stunnel搭建一台HTTP高匿代理服务器,Tinyproxy也行。squit用来实现http代理,stunnel在代理的基础上建一条隧道实现加密。

如果觉得ip数量少,就多买几台服务器,依次配置squid~~

由于是自建代理,都是独享且是真实的IP,所有相当稳定。采集、抢购、刷票、刷点击、刷主播人气什么的都可以干,只有有钱上机子就行~~

去年接了一个爬虫单子,抓国外某股票网站,共千万页面量级,反爬虫做的挺恶心,无奈买了20台低配机子做HTTP代理服务器,一个月5000成本~~

5)自建代理服务商

如果上面方法自己懒得搞,也没有关系。找个做类似服务的商家,开个api端口即可。

国外的有:

Crawlera ( Web Crawling Platform & Data as a Service )

......

国内的有:

阿步云(阿布云代理 - 最专业、最稳定、IP最丰富的高匿名HTTP代理IP提供商)

鲲鹏代理(IPRENT - 国内最专业稳定高匿独享HTTP代理解决方案提供商)

瀚云代理(瀚云代理 – http代理ip)

......

Crawlera和阿步云都用过,除了贵都挺好的,另外在请求频率和并发数上有限制。没办法,要一个ip共享给10个人,每个人并发100,费用又不涨,他们那边得赔死,光带宽费就海里去了。

 

推荐阅读

百度上线信风算法,打击翻页诱导

近期,百度搜索技术团队发现,部分网站存在利用翻页键诱导用户的行为,极大的损害了用户的浏览体验。针对此类问题,信风算法即将上线,对于存在问题的站点将会进行严厉打击。 信风算法主要针对以下情况: 用户点击翻页键时,自动跳转至网站的其他频道页(如目录页、站......

百度搜索将严格控制搜索中的权限问题

近期,百度搜索发现在搜索中部分站点存在内容获取权限、功能使用权限等问题,影响搜索用户的体验。百度搜索一直致力于让用户快捷地从搜索中获取所需内容,减少用户获取信息的成本。 为了更好的满足搜索用户的需求,对于搜索结果中存在权限限制的站点,近期将上线策略进......

SEO怎么样,现在学还有前途么

提示:本文标题党|纯扯淡|没干货|内容毫无逻辑|错别字没改|各种跳跃 很久以前,当时的老大用一口标准的粤式普通话告诉我:“干我们这行呢,最重要的是大局观,要有视野和格局,才能有前途”。 那么就有两个问题: 什么是视野格局? 如何获得视野格局? 于是本......