导航：首页 > 开发技术 >

基于python怎么实现cdn日志文件导入mysql进行分析

发表于：2024-11-15 作者：千家信息网编辑

千家信息网最后更新 2024年11月15日，本篇内容主要讲解"基于python怎么实现cdn日志文件导入mysql进行分析"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"基于python怎么实现cdn

千家信息网最后更新 2024年11月15日基于python怎么实现cdn日志文件导入mysql进行分析

本篇内容主要讲解"基于python怎么实现cdn日志文件导入mysql进行分析"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"基于python怎么实现cdn日志文件导入mysql进行分析"吧!

一、本文需求背景

周六日出现CDN大量请求，现需要分析其请求频次与来源，查询是否存在被攻击问题。

本文以阿里云CDN日志作为辅助查询数据，其它云平台大同小异。

系统提供的离线日志如下所示：

二、需求落地如下

日志实例如下所示：

[9/Jun/2015:01:58:09 +0800] 10.10.10.10 - 1542 "-" "GET http://www.aliyun.com/index.html" 200 191 2830 MISS "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://example.com/robot/)" "text/html"

其中相关字段的解释如下：

[9/Jun/2015:01:58:09 +0800]：日志开始时间。
10.10.10.10：访问IP。
-：代理IP。
1542：请求响应时间，单位为毫秒。
"-"： HTTP请求头中的Referer。
GET：请求方法。
http://www.aliyun.com/index.html：用户请求的URL链接。
200：HTTP状态码。
191：请求大小，单位为字节。
2830：请求返回大小，单位为字节。
MISS：命中信息。

HIT：用户请求命中了CDN边缘节点上的资源（不需要回源）。
MISS：用户请求的内容没有在CDN边缘节点上缓存，需要向上游获取资源（上游可能是CDN L2节点，也可能是源站）。

Mozilla/5.0（compatible; AhrefsBot/5.0; +http://example.com/robot/）：User-Agent请求头信息。
text/html：文件类型。

按照上述字段说明创建一个 MySQL 表，用于后续通过 Python 导入 MySQL 数据，字段可以任意定义

SET NAMES utf8mb4;SET FOREIGN_KEY_CHECKS = 0;-- ------------------------------ Table structure for ll-- ----------------------------DROP TABLE IF EXISTS `ll`;CREATE TABLE `ll`  (  `id` int(11) NOT NULL,  `s_time` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `ip` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `pro_ip` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `dura_time` int(11) NULL DEFAULT NULL,  `referer` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `method` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `url` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `code` int(255) NULL DEFAULT NULL,  `size` double NULL DEFAULT NULL,  `res_size` double NULL DEFAULT NULL,  `miss` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `ua` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  `html_type` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,  PRIMARY KEY (`id`) USING BTREE) ENGINE = MyISAM CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;SET FOREIGN_KEY_CHECKS = 1;

下载全部日志之后，使用 Python 批量导入数据库中，解析代码如下，在提前开始前需要先看一下待提取的每行数据内容。

[11/Mar/2022:00:34:17 +0800] 118.181.139.215 - 1961 "http://xx.baidu.cn/" "GET https://cdn.baidu.com/video/1111111111.mp4" 206 66 3739981 HIT "Mozilla/5.0 (iPad; CPU OS 15_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148 SP-engine/2.43.0 main%2F1.0 baiduboxapp/13.5.0.10 (Baidu; P2 15.1) NABar/1.0" "video/mp4"

初看之下，我们会使用空格进行切片，例如下述代码：

import os# 获取文件名my_path = r"C:日志目录"file_names = os.listdir(my_path)file_list = [os.path.join(my_path, file) for file in file_names]for file in file_list:    with open(file, 'r', encoding='utf-8') as f:        lines = f.readlines()        for i in lines:            item_list = i.split(' ')            s_time = item_list[0]+' '+item_list[1]            ip = item_list[2],            pro_ip =item_list[3],            dura_time =item_list[4],            referer =item_list[5],            method =item_list[6],            url = item_list[7],            code =item_list[8],            size =item_list[9],            res_size =item_list[10],            miss =item_list[11],            html_type =item_list[12]            print(s_time,ip,pro_ip,dura_time,referer,method,url,code,size,res_size,miss,html_type)

运行之后，会发现里面的开始时间位置，UA位置都存在空格，所以该方案舍弃，接下来使用正则表达式提取。

参考待提取的模板编写正则表达式如下所示：

\[(?.*?)\] (?\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}) (?.*?) (?\d+) \"(?.*?)\" \"(?.*?) (?.*?)\" (?\d+) (?\d+) (?\d+) (?.*?) \"(?.*?)\" \"(?.*?)\"

接下来进行循环读取数据，然后进行提取：

import osimport reimport pymysql# 获取文件名my_path = r"C:日志文件夹"file_names = os.listdir(my_path)file_list = [os.path.join(my_path, file) for file in file_names]wait_list = []for file in file_list:    with open(file, 'r', encoding='utf-8') as f:        lines = f.readlines()        for i in lines:            pattern = re.compile(                '\[(?P.*?)\] (?P\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}) (?P.*?) (?P\d+) \"(?P.*?)\" \"(?P.*?) (?P.*?)\" (?P\d+) (?P\d+) (?P\d+) (?P.*?) \"(?P.*?)\" \"(?P.*?)\"')            gs = pattern.findall(i)            item_list = gs[0]            s_time = item_list[0]            ip = item_list[1]            pro_ip = item_list[2]            dura_time = item_list[3]            referer = item_list[4]            method = item_list[5]            url = item_list[6]            code = item_list[7]            size = item_list[8]            res_size = item_list[9]            miss = item_list[10]            ua = item_list[11]            html_type = item_list[12]            values_str = f"('{s_time}', '{ip}', '{pro_ip}', {int(dura_time)}, '{referer}', '{method}', '{url}', {int(code)}, {int(size)}, {int(res_size)}, '{miss}', '{ua}','{html_type}')"            wait_list.append(values_str)

读取到数据存储到 wait_list 列表中，然后操作列表，写入MySQL，该操作为了防止SQL语句过长，所以每次间隔1000元素进行插入。

def insert_data():    for i in range(0,int(len(wait_list)/1000+1)):        items = wait_list[i * 1000:i * 1000 + 1000]        item_str = ",".join(items)        inser_sql = f"INSERT INTO ll(s_time, ip, pro_ip, dura_time, referer, method, url,code, size, res_size, miss, ua,html_type) VALUES {item_str}"        db = pymysql.connect(host='localhost',                             user='root',                             password='root',                             database='logs')        cursor = db.cursor()        try:            cursor.execute(inser_sql)            db.commit()        except Exception as e:            # print(content)            print(e)            db.rollback()

最终的结果如下所示：

导入MySQL之后，就可以按照自己的需求进行排序与查询了。

`三、自定义查询`

可以通过 refer 计算请求次数：

select count(id) num,referer from ll GROUP BY referer ORDER BY num desc

到此，相信大家对"基于python怎么实现cdn日志文件导入mysql进行分析"有了更深的了解，不妨来实际操作一番吧！这里是网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！




         很赞哦！ 
        

        


        日志
            文件
            数据
            查询
            分析
            内容
            单位
            字段
            时间
            用户
            节点
            需求
            接下来
            代码
            位置
            信息
            大小
            字节
            文件名
            方法
    
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全

网络安全员与程序员谁好
不同数据库如何实现分页
软件开发公司资质管理
数据库3千万数据有多少G
当当网有多少台服务器
网络安全设备远程访问
什么是服务器渲染
软件开发工具图标
矿机服务器租用多少钱一年
苹果8手机怎么转移数据库
服务器插电源自动开机是怎么回事
豌豆荚服务器
县城网络安全现状
迪莱互联网科技有限公司
怀旧服部落服务器怎么升级
魔兽部落多的服务器
软件开发年入百万
网络安全胡素冉讲座观后感
数据库页码对话框设置选项
堡垒下载软件开发
access 数据库创建
周鸿祎委员谈网络安全
北大数据库普惠金融
服务器上架标准
激战2哪个服务器好
复仇者联盟服务器数量
帕斯游戏软件开发
网络安全和刑事侦查
网络安全文件2020
英国软件开发就业前景分析
        
        


        
          
            扫描关注千家信息网微信公众号，第一时间获取内容更新动态
            转载请说明来源于"千家信息网"
            本文地址：https://www.qianjiagd.com/a25309
          
        
        
        
          
            上一篇
              怎么用Linux查询OS、CPU、内存、硬盘信息
              这篇文章主要讲解了"怎么用Linux查询OS、CPU、内存、硬盘信息"，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习"怎么用Linux查询OS、CPU、内
              
            下一篇
              JavaScript如何提前让函数退出代替嵌套条件分支
              这篇文章将为大家详细讲解有关JavaScript如何提前让函数退出代替嵌套条件分支，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。提前让函数退出代替嵌套条件分支让函数




    


    
      
        相关文章
      
      
        PHP中session会话操作技巧有哪些
        PHP类相关知识点有哪些
        VS2008无法直接查看STL值怎么办
        php版微信公众平台之微信网页登陆授权的示例分析
        中高级PHP程序员应该掌握什么技术
        CI框架出现mysql数据库连接资源无法释放怎么办
        ajax跨域访问报错501怎么办
        什么是RPC框架
        .net mvc超过了最大请求长度怎么办
        php分页原理的示例分析

 





  
    
      
        站长推荐
        点击排行
      
      
        
          



      recovery是什么意思?电脑开机重启显示recovery蓝屏怎么办
      
        
          怎么在Linux中配置SSH和Xshell远程连接服务器
          
        
          VS2008无法直接查看STL值怎么办
          
        
          什么是RPC框架
          
        
          .net mvc超过了最大请求长度怎么办
          
      
      java怎么实现try/catch异常块
      
        
          PHP中如何处理上传文件
          
        
          php中require_once报错的解决方法
          
        
          PHP如何编写学校网站上新生注册登陆程序
          
        
          php中微信公众号开发模式的示例分析
          
      

          
        
        
          


      在vmware esxi6.5中将硬盘驱动类型由HDD变为SSD类型
     
      
        Vue中的匿名插槽与具名插槽是什么
        vscoder如何关闭错误提示
        vue3与vue2的区别以及vue3的API用法介绍
        老年机号码拉黑怎么解除（老年机号码拉黑怎么解除）
        京东以旧换新评估价和实际一样吗（京东以旧换新估价和成交价一样吗）
        拼多多注销后可以重开新用户吗（拼多多注销后重开算新用户吗）
        qq群作业里为什么图片上传不了（qq群作业照片传不上去）
        录制的横屏视频怎么变成全屏竖屏（录制的横屏怎么变竖屏）
      
      微信登录加载联系人失败怎么弄（微信加载联系人失败 点击重试）
  

          
        
      
    



    
      标签云
      


数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库安全章节测试
华大基因数据库安全性
数据库es安全性测试工具
数据库与云安全
微生物安全数据库
数据库个人信息安全吗
安全数据库降级
黑龙江数据库安全防护系统
数据库安全性实验例题
在国家公共安全数据库有记录


      
    


    

    
      猜你喜欢
      
        华为手机按键震动在哪设置关掉 按键振动怎么取消方法
        陌陌无限注册教程（怎么注册陌陌新号）
        百度网盘PDF怎么转换成Word格式 PDF转Word操作教程
        win10开机蓝屏终止代码SYSTEM_SERVICE_EXCEPTION的解决方法
        微信看不到朋友圈不显示一条横线（微信看不到朋友圈只有一条横线）
        VS2008无法直接查看STL值怎么办
        怎么将苹果手机中录音发给好友 iPhone传语音文件方法教程
        iis7.5中如何让html与shtml一样支持include功能
        双卡发短信怎么设置（双卡怎么切换发短信）
        华为手机如何将相册中的图片移入机要柜？