授人以鱼不如授人以渔
爬虫教程千千万,总觉得市面的教程很少教到精髓。
这一期做一个本地扫码登陆获取Session的爬虫。
我们的目标是能够将QQ音乐的扫码登陆在本地执行。
也就是保存登陆二维码到本地,弹出二维码,若登陆成功后删除二维码,保留登陆信息。
我们首先写出显示二维码函数、删除二维码函数、保存二维码函数。
编写代码
import sys``import os` `import subprocess``'''用于在不同OS显示验证码'''``def showImage(img_path):` `try:` `if sys.platform.find('darwin') >= 0: subprocess.call(['open', img_path])` `elif sys.platform.find('linux') >= 0: subprocess.call(['xdg-open', img_path])` `else: os.startfile(img_path)` `except:` `from PIL import Image` `img = Image.open(img_path)` `img.show()` `img.close()`` ``'''验证码验证完毕后关闭验证码并移除'''``def removeImage(img_path):` `if sys.platform.find('darwin') >= 0:` `os.system("osascript -e 'quit app \"Preview\"'")` `os.remove(img_path)`` ``'''保存验证码图像'''``def saveImage(img, img_path):` `if os.path.isfile(img_path):` `os.remove(img_path)` `fp = open(img_path, 'wb')` `fp.write(img)` `fp.close()
进入 https://y.qq.com/ 后打开F12开发者工具,将登陆按钮点开弹出登陆框。
我们首先先获取我们的图片信息,点开Img选项里面往下拉,找到二维码的网页链接。
点开Headers查看获取该图片需要什么链接:
首先是个GET请求(Request Method中查看)
其次URL为https://ssl.ptlogin2.qq.com/ptqrshow
(问号前的网址为根部URL,问号后为参数)
再看看该二维码网站需要的参数:
appid: 716027609
e: 2
l: M
s: 3
d: 72
v: 4
t: 0.07644951044008197
daid: 383
pt_3rd_aid: 100497308
为了保证每次使用的正确性,我们进行多次刷新查看,
appid: 716027609
e: 2
l: M
s: 3
d: 72
v: 4
t: 0.7970151752745949
daid: 383
pt_3rd_aid: 100497308
我们发现变化的参数只有一个 t 参数,研究研究 t 参数能不能正常访问。
打开postman工具,新建一个requests查询将url和params给进去发现正常获得二维码。
那我们暂且认为 t 参数并不是一个加密参数,姑且当 在0到1之间的随机数 带入。
t 参数转变 Python 语法为random.random()
编写代码
## 伪代码``self.cur_path = os.getcwd()``params = {` `'appid': '716027609',` `'e': '2',` `'l': 'M',` `'s': '3',` `'d': '72',` `'v': '4',` `'t': str(random.random()),` `'daid': '383',` `'pt_3rd_aid': '100497308',``}``response = self.session.get(self.ptqrshow_url, params=params)``saveImage(response.content, os.path.join(self.cur_path, 'qrcode.jpg'))``showImage(os.path.join(self.cur_path, 'qrcode.jpg'))
为了防止包过多,我们将曾经抓到的包清除掉并点回ALL界面。
点击登陆跳转,但此时我们需要查看数据包的状态,因为你登陆之后会出现302跳转现象,如果不截止抓包的话跳转后数据包将会清空。
我们首先要了解标红的两个按钮作用
左上角按钮能够控制浏览器的抓包状态,如果将它点为灰色的话,浏览器将停止抓包固定住抓包的数量和位置并不会清空。
其次按钮为改变浏览器的运行速率,如果出现网速过快现象使得抓包来不及按,我们可以将前后端发送速率改为缓慢3G网速,这样就能轻松点到截止抓包了。(手速慢才会用这个,比如我)
我们拦截到这些登陆包,一个个寻找登陆所需要的主要包。
关于登陆包只有一个URL为https://ssl.ptlogin2.qq.com/ptqrlogin
参数为:
u1: https://graph.qq.com/oauth2.0/login_jump
ptqrtoken: 1506487176
ptredirect: 0
h: 1
t: 1
g: 1
from_ui: 1
ptlang: 2052
action: 1-0-1607136616096
js_ver: 20102616
js_type: 1
login_sig:
pt_uistyle: 40
aid: 716027609
daid: 383
pt_3rd_aid: 100497308
继续多次访问,我们发现ptqrtoken
、action
、login_sig
是可变的。
根据长度与16开头的字符串可变,盲猜action
变量第三位为时间戳的倍数。
随意打开一个时间戳(https://tool.lu/timestamp/)网址丢入该变量参数,发现扩大了一千倍。
action
变量用Python编写为'action': '0-0-%s' % int(time.time() * 1000)
我们正常打开该开发者窗口,准备查找加密参数位置。
点击Initiator 表盘,在这里我们能够找到每个参数来源,直接点入第一个loadScript之中。
我们发现我们获得了一串未格式化Javascript代码。
随意打开一个在线格式化(https://www.html.cn/tool/js_beautify/)的网站,将全部代码格式化之后在线查询一下加密参数在这里是经历了什么加密。
params.ptqrtoken=$.str.hash33($.cookie.get("qrsig"))``pt.ptui.login_sig=pt.ptui.login_sig||$.cookie.get("pt_login_sig");
我们获得了这俩加密参数的来源,看来都是关于cookie的加密。
ptqrtoken
参数需要获取cookie中的qrsig键的值信息后经过hash33加密处理。
login_sig
参数需要获取cookie中的pt_login_sig键的值信息即可。
既然找到加密的位置了,那我们就开始寻找cookie了。
出现这两个参数的可能地方并不多,我们不需要每个返回结果都需要看。
一个是点击登陆按钮出现弹窗那一刻有可能出现该参数。
一个是弹出二维码或QQ登陆信息时有可能出现该参数。
重新刷新后找到弹出登陆框的返回信息。
是个GET请求,URL为https://xui.ptlogin2.qq.com/cgi-bin/xlogin
参数为:
appid: 716027609
daid: 383
style: 33
login_text: 授权并登录
hide_title_bar: 1
hide_border: 1
target: self
s_url: https://graph.qq.com/oauth2.0/login_jump
pt_3rd_aid: 100497308
pt_feedback_link: https://support.qq.com/products/77942?customInfo=.appid100497308
为了保险,多次刷新查看是否含有另外的加密参数。
幸好幸好,都是正常死参数,好的直接访问。
编写代码
session = requests.Session()``params = {` `'appid': '716027609',` `'daid': '383',` `'style': '33',` `'login_text': '授权并登录',` `'hide_title_bar': '1',` `'hide_border': '1',` `'target': 'self',` `'s_url': 'https://graph.qq.com/oauth2.0/login_jump',` `'pt_3rd_aid': '100497308',` `'pt_feedback_link': 'https://support.qq.com/products/77942?customInfo=.appid100497308',``}``response = session.get('https://xui.ptlogin2.qq.com/cgi-bin/xlogin?', params=params)``cookie = session.cookies``print(cookie)``### 为了好看在这里我给全都拆开看了。``# -> <RequestsCookieJar[``# -> <Cookie pt_clientip=1c1e24098914080000b07d1bd433ca8b619275ff for .ptlogin2.qq.com/>,` `# -> <Cookie pt_guid_sig=f1d1eef00c25d5c6c6d8e2e991cb8b4f64bf619e97d242388d48887e4f0f93bf for .ptlogin2.qq.com/>,` `# -> <Cookie pt_local_token=49508773 for .ptlogin2.qq.com/>,` `# -> <Cookie pt_login_sig=BHH8t2gdwTlUjkRWg9xJ*vKp2v2-okQSrOV1q1QEyg*Z2uAbsqi18eiy*af*rvsb for .ptlogin2.qq.com/>,` `# -> <Cookie pt_serverip=8b6a647434394161 for .ptlogin2.qq.com/>,` `# -> <Cookie uikey=577ec007b515f37b7134decd61590dac2f03d036848870f20fe81c87cf7d7a95 for .ptlogin2.qq.com/>]>
运行之后,我们发现了pt_login_sig
参数,直接字典拿到这个参数命名变量保存起来。
既然第一个参数在登陆框内,那么盲猜第二个参数应该就是在二维码中保存着了。
刚才已经拿到了二维码的代码编写。话不多说直接拿cookie
编写代码
session = requests.Session()``params = {` `'appid': '716027609',` `'e': '2',` `'l': 'M',` `'s': '3',` `'d': '72',` `'v': '4',` `'t': str(random.random()),` `'daid': '383',` `'pt_3rd_aid': '100497308',``}``response = session.get('https://ssl.ptlogin2.qq.com/ptqrshow?', params=params)``cookie = session.cookies``print(cookie)``# -> <RequestsCookieJar[``# -> <Cookie qrsig=4tlVhzwYo0FHzGeuen5Y-h5reR5cO*HjDyRQXcPedS*7MmOIYRENCN*BwY9JY1dD for .ptlogin2.qq.com/>]>
就一个真好,正好是我们想要的qrsig
,使用字典get提取该键的值信息,这个就这么简单的拿到了。
我们拿到的这个加密参数并不是可以直接给入代码中的,我们还得获得该hash33加密的东西才可以。
点击Search后搜索hash33查询。只有一个信息点进去查找该代码。
hash33加密算法Javascript版:
hash33: function hash33(str) {` `var hash = 0;` `for (var i = 0, length = str.length; i < length; ++i) {` `hash += (hash << 5) + str.charCodeAt(i)` `}` `return hash & 2147483647``}
编写为Python程序:
'''qrsig转ptqrtoken, hash33函数'''``def __decryptQrsig(self, qrsig):` `e = 0` `for c in qrsig:` `e += (e << 5) + ord(c)` `return 2147483647 & e
在此,所有的加密均获取,访问登陆URL即可获取session信息。
import os,sys,time``import subprocess``import random``import re``import requests`` ``def showImage(img_path):` `try:` `if sys.platform.find('darwin') >= 0: subprocess.call(['open', img_path])` `elif sys.platform.find('linux') >= 0: subprocess.call(['xdg-open', img_path])` `else: os.startfile(img_path)` `except:` `from PIL import Image` `img = Image.open(img_path)` `img.show()` `img.close()`` ``def removeImage(img_path):` `if sys.platform.find('darwin') >= 0:` `os.system("osascript -e 'quit app \"Preview\"'")` `os.remove(img_path)`` ``def saveImage(img, img_path):` `if os.path.isfile(img_path):` `os.remove(img_path)` `fp = open(img_path, 'wb')` `fp.write(img)` `fp.close()`` ``class qqmusicScanqr():` `is_callable = True` `def __init__(self, **kwargs):` `for key, value in kwargs.items(): setattr(self, key, value)` `self.info = 'login in qqmusic in scanqr mode'` `self.cur_path = os.getcwd()` `self.session = requests.Session()` `self.__initialize()` `'''登录函数'''` `def login(self, username='', password='', crack_captcha_func=None, **kwargs):` `# 设置代理` `self.session.proxies.update(kwargs.get('proxies', {}))` `# 获得pt_login_sig` `params = {` `'appid': '716027609',` `'daid': '383',` `'style': '33',` `'login_text': '授权并登录',` `'hide_title_bar': '1',` `'hide_border': '1',` `'target': 'self',` `'s_url': 'https://graph.qq.com/oauth2.0/login_jump',` `'pt_3rd_aid': '100497308',` `'pt_feedback_link': 'https://support.qq.com/products/77942?customInfo=.appid100497308',` `}` `response = self.session.get(self.xlogin_url, params=params)` `pt_login_sig = self.session.cookies.get('pt_login_sig')` `# 获取二维码` `params = {` `'appid': '716027609',` `'e': '2',` `'l': 'M',` `'s': '3',` `'d': '72',` `'v': '4',` `'t': str(random.random()),` `'daid': '383',` `'pt_3rd_aid': '100497308',` `}` `response = self.session.get(self.ptqrshow_url, params=params)` `saveImage(response.content, os.path.join(self.cur_path, 'qrcode.jpg'))` `showImage(os.path.join(self.cur_path, 'qrcode.jpg'))` `qrsig = self.session.cookies.get('qrsig')` `ptqrtoken = self.__decryptQrsig(qrsig)` `# 检测二维码状态` `while True:` `params = {` `'u1': 'https://graph.qq.com/oauth2.0/login_jump',` `'ptqrtoken': ptqrtoken,` `'ptredirect': '0',` `'h': '1',` `'t': '1',` `'g': '1',` `'from_ui': '1',` `'ptlang': '2052',` `'action': '0-0-%s' % int(time.time() * 1000),` `'js_ver': '20102616',` `'js_type': '1',` `'login_sig': pt_login_sig,` `'pt_uistyle': '40',` `'aid': '716027609',` `'daid': '383',` `'pt_3rd_aid': '100497308',` `'has_onekey': '1',` `}` `response = self.session.get(self.ptqrlogin_url, params=params)` `print(response.text)` `if '二维码未失效' in response.text or '二维码认证中' in response.text:pass` `elif '二维码已经失效' in response.text:` `raise RuntimeError('Fail to login, qrcode has expired')` `else:break` `time.sleep(0.5)` `removeImage(os.path.join(self.cur_path, 'qrcode.jpg'))` `# 登录成功` `qq_number = re.findall(r'&uin=(.+?)&service', response.text)[0]` `url_refresh = re.findall(r"'(https:.*?)'", response.text)[0]` `response = self.session.get(url_refresh, allow_redirects=False, verify=False)` `print('账号「%s」登陆成功' % qq_number)` `return self.session`` ` `'''qrsig转ptqrtoken, hash33函数'''` `def __decryptQrsig(self, qrsig):` `e = 0` `for c in qrsig:` `e += (e << 5) + ord(c)` `return 2147483647 & e`` ` `'''初始化'''` `def __initialize(self):` `self.headers = {` `'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',` `}` `self.ptqrshow_url = 'https://ssl.ptlogin2.qq.com/ptqrshow?'` `self.xlogin_url = 'https://xui.ptlogin2.qq.com/cgi-bin/xlogin?'` `self.ptqrlogin_url = 'https://ssl.ptlogin2.qq.com/ptqrlogin?'` `self.session.headers.update(self.headers)``qq_login = qqmusicScanqr()``session = qq_login.login()
以上就是“帮助学妹用Python实现QQ音乐扫码登陆”的全部内容,希望对你有所帮助。
?
?关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、Python练习题
检查学习结果。
六、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。