如何实现Python爬虫之掌握酷狗音乐的加密过程
本篇内容主要讲解"如何实现Python爬虫之掌握酷狗音乐的加密过程",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"如何实现Python爬虫之掌握酷狗音乐的加密过程"吧!
我们在搜索栏上输入我们想听的音乐,小编输入:刺客
是不是看到了一系列音乐,怎样得到这些音乐的一些信息呢?(这里指的音乐信息是指音乐的hash值和音乐的album_id值【这两个参数在获取音乐的下载链接那里会用到】,当然还包括音乐的名称【不然怎么区别呢?】)。
由于这一系列音乐是动态加载出来的,也就是如果直接解析这个界面的数据,根本得不到,这个时候我们就应该来到如下这个界面了。
是不是可以看到我们刚才看到的那些音乐了,而且展开其中一首音乐,可以发现上述小编讲的哪些信息好像都有了呀!
我们看一下这个请求的网址吧!发现这是一个get请求,请求数据如下:
小编搜索了多首歌曲,发现它们的请求参数有一个共同点,那就是除了keyword、clienttime、mid、uuid和signature这几个参数值不同之外,其他的都差不多,而clienttime本意就是客户端时间,它的值是一个时间戳,mid和uuid的值和clienttime一样的,keyword它的值就是我们搜索的关键词,现在我们需要的就是搞懂signature这个参数值到底是什么呀!
小编得到这个signature参数值的长度为32,觉得应该是使用了加密,将一些初始数据,把它加密得到的,那么怎样得到这个初始数据呢?
小编点击了这个网站所有的js文件,发现这个参数值在这个js文件下
是不是看到了md5这个函数呀!这应该就是那个加密函数了吧!而o.join("")就应该是那个初始数据了,o是一个js数组。
现在知道要获取o的值,怎样获取呢?肯定是使用断点呀!我们在signature周围打上相应的断点,然后执行断点操作(这个小编就不一一赘述了,小编使用js断点还是有一点懵逼的,就不在这里误导大家了)。
上述图片就是那个js数组o中的值了,经过对这些数据进行分析,发现其实这其中绝大部分值就是我们请求网址的哪些参数值,读者觉得呢?
整个加密算法如下:
这也太长了吧!原本小编打断使用python来模拟这个加密过程,但是现在小编看到这么长,放弃了,但是并不代表加密过程就无法实现,小编查阅资料,发现原来python可以执行js语句,我们是不是只需结合python和js,就能实现这个加密了呢?开干!
代码如下:
看看运行结果吧!
是不是这样就获取我们想要的数据了呀!我们只需使用json解析这些数据,就可以获取小编在上面提到的那两个参数了。【音乐的hash值和音乐的album_id值】
3. 得到歌曲的下载链接
在上述第二点那里讲到音乐的hash值和音乐album_id值,为什么要提到它们俩呢?当然是为了给第第三点这里做铺垫的哈!
这个过程小编不会讲的很详细,因为小编今天讲的重点是这个加密哈!
我们点击一首歌播放,来到上述界面,可以看到歌曲的下载链接,这个请求的参数如下:
这些请求参数中是不是看到我提到的那两个参数呀!
通过分析发现,其实只需以下三个参数即可请求成功!如下
到此,相信大家对"如何实现Python爬虫之掌握酷狗音乐的加密过程"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!