今天我在做SEO收录提升工具集的搜狗推送功能的时候,发现搜狗根本没有推送URL的接口,不过好在有一个地方可以推送URL
但是一次只能提交20个URL并且还需要验证码,这就有点困难了,本来打算用请求验证码识别平台返回验证码结果,但考虑到如果每天都要使用的话验证码识别费用也是一笔不小的开销,所以破解掉搜狗验证码势在必行
先把验证码下载下来
没想到验证码竟然不是一张图片,而是一个SVG
这里解释一下SVG,简单来说就是用代码绘制成的图片,无法直接下载保存为图片
我们这里就需要用python 把SVG转成jpg格式的图片保存下来
这里我们用到的库为svglib
from reportlab.graphics import renderPM
from svglib.svglib import svg2rlg
for i in range(100):
res = requests.get('http://zhanzhang.sogou.com/api/user/generateVerifCode')
f = io.StringIO(res.text)
drawing = svg2rlg(f)
renderPM.drawToFile(drawing, f"img/{i}.png", fmt="JPG")
转换下载完成
调用ocr.dll进行验证码识别
ocr.dll据说是一个易语言编写的动态链接库,训练了大量图形验证码,识别成功率非常高
但是仅运行在32位Python中,因为ocr.dll它们是使用语言训练而成的,而易语言是32位的..
那么动态链接库,python中如何调用呢
- 导入ctypes 库
- 选择要调用的动态链接库,ctypes.windll.LoadLibrary可以调用动态链接库
- 初始化方法
- 请求验证码转成PNG格式的字节流并临时存储在内存中
- 调用ocr.dll动态链接库中的ocr方法
- 传入 PNG格式的字节流和字节流长度 这两个参数
- 返回结果
下面是代码demo
import ctypes
import os
import requests
import io
from reportlab.graphics import renderPM
from svglib.svglib import svg2rlg
os.environ['GLOG_minloglevel'] = '4'
ocr = ctypes.windll.LoadLibrary('../utils/ocr.dll')
ocr.init()
crack_func = ocr.ocr
res = requests.get('http://zhanzhang.sogou.com/api/user/generateVerifCode')
f = io.StringIO(res.text)
drawing = svg2rlg(f)
img = renderPM.drawToString(drawing,fmt="PNG")
img_len = len(img)
ret = str(ctypes.string_at(crack_func(img, img_len)), encoding='utf-8')
print(ret)
测试识别结果
对比一下原图,可以看到验证码识别率是非常高的,最重要的是不需要花一分钱去打码
不光是搜狗站长的验证码,市面上常见的数字字母组合验证码都可以轻松破解
本文来源:【python+Ocr.dll 突破搜狗站长网址推送验证码】
由思享SEO博客编辑转载,仅用于参考学习,如有侵权请联系本站修改删除!