第十四章:提取出某日访问百度次数最多的那个IP

2024-02-01 05:18

本文主要是介绍第十四章:提取出某日访问百度次数最多的那个IP,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

提取出某日访问百度次数最多的那个IP

问题描述:海量日志数据,提取出某日访问百度次数最多的那个IP。

分析:IP地址是32位的二进制数,所以共有N=2^32=4G个不同的IP地址, 创建一个unsigned count[N];的数组,即可统计出每个IP的访问次数

#include <fstream>  
#include <iostream>  
#include <ctime>  using namespace std;  
#define N 32           //临时文件数  #define ID(x)  (x>>27)                 //x对应的文件编号  
#define VALUE(x) (x&0x07ffffff)        //x在文件中保存的值  
#define MAKE_IP(x,y)  ((x<<27)|y)      //由文件编号和值得到IP地址.  #define MEM_SIZE  128*1024*1024       //需分配内存的大小为 MEM_SIZE*sizeof(unsigned)     char* data_path="D:/test/ip.dat";        //ip数据  //产生n个随机IP地址  
void make_data(const int& n)         
{  ofstream out(data_path,ios::out|ios::binary);  srand((unsigned)(time(NULL)));  if (out)  {  for (int i=0; i<n; ++i)  {  unsigned val=unsigned(rand());           val = (val<<24)|val;              //产生unsigned类型的随机数  out.write((char *)&val,sizeof (unsigned));  }  }  out.close();
}  //找到访问次数最大的ip地址  
int main()  
{  //make_data(100);     //   make_data(100000000);       //产生测试用的IP数据  fstream arr[N];  for (int i=0; i<N; ++i)                 //创建N个临时文件  {  char tmp_path[128];     //临时文件路径  sprintf(tmp_path,"D:/test/tmp%d.dat",i);  arr[i].open(tmp_path, ios::trunc|ios::in|ios::out|ios::binary);  //打开第i个文件  if( !arr[i])  {  cout<<"open file"<<i<<"error"<<endl;  }  }  ifstream infile(data_path,ios::in|ios::binary);   //读入测试用的IP数据  unsigned data;  while(infile.read((char*)(&data), sizeof(data)))  {  unsigned val=VALUE(data);  int key=ID(data);  arr[ID(data)].write((char*)(&val), sizeof(val));           //保存到临时文件件中  }  for(unsigned i=0; i<N; ++i)  {  arr[i].seekg(0);  }  unsigned max_ip = 0;    //出现次数最多的ip地址  unsigned max_times = 0;     //最大只出现的次数  //分配512M内存,用于统计每个数出现的次数  unsigned *count = new unsigned[MEM_SIZE];    for (unsigned i=0; i<N; ++i)  {  memset(count, 0, sizeof(unsigned)*MEM_SIZE);  //统计每个临时文件件中不同数字出现的次数  unsigned data;  while(arr[i].read((char*)(&data), sizeof(unsigned)))       {  ++count[data];  }  //找出出现次数最多的IP地址  for(unsigned j=0; j<MEM_SIZE; ++j)                             {  if(max_times<count[j])             {  max_times = count[j];  max_ip = MAKE_IP(i,j);        // 恢复成原ip地址.  }  }  }  delete[] count;  unsigned char *result=(unsigned char *)(&max_ip);  printf("出现次数最多的IP为:%d.%d.%d.%d,共出现%d次\n",   result[0], result[1], result[2], result[3], max_times);  
}  



这篇关于第十四章:提取出某日访问百度次数最多的那个IP的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/666185

相关文章

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Java使用正则提取字符串中的内容的详细步骤

《Java使用正则提取字符串中的内容的详细步骤》:本文主要介绍Java中使用正则表达式提取字符串内容的方法,通过Pattern和Matcher类实现,涵盖编译正则、查找匹配、分组捕获、数字与邮箱提... 目录1. 基础流程2. 关键方法说明3. 常见场景示例场景1:提取所有数字场景2:提取邮箱地址4. 高级

Python 字符串裁切与提取全面且实用的解决方案

《Python字符串裁切与提取全面且实用的解决方案》本文梳理了Python字符串处理方法,涵盖基础切片、split/partition分割、正则匹配及结构化数据解析(如BeautifulSoup、j... 目录python 字符串裁切与提取的完整指南 基础切片方法1. 使用切片操作符[start:end]2

Linux查询服务器 IP 地址的命令详解

《Linux查询服务器IP地址的命令详解》在服务器管理和网络运维中,快速准确地获取服务器的IP地址是一项基本但至关重要的技能,下面我们来看看Linux中查询服务器IP的相关命令使用吧... 目录一、hostname 命令:简单高效的 IP 查询工具命令详解实际应用技巧注意事项二、ip 命令:新一代网络配置全

使用Python提取PDF大纲(书签)的完整指南

《使用Python提取PDF大纲(书签)的完整指南》PDF大纲(Outline)​​是PDF文档中的导航结构,通常显示在阅读器的侧边栏中,方便用户快速跳转到文档的不同部分,大纲通常以层级结构组织,包含... 目录一、PDF大纲简介二、准备工作所需工具常见安装问题三、代码实现完整代码核心功能解析四、使用效果控

通过配置nginx访问服务器静态资源的过程

《通过配置nginx访问服务器静态资源的过程》文章介绍了图片存储路径设置、Nginx服务器配置及通过http://192.168.206.170:8007/a.png访问图片的方法,涵盖图片管理与服务... 目录1.图片存储路径2.nginx配置3.访问图片方式总结1.图片存储路径2.nginx配置

Linux从文件中提取特定内容的实用技巧分享

《Linux从文件中提取特定内容的实用技巧分享》在日常数据处理和配置文件管理中,我们经常需要从大型文件中提取特定内容,本文介绍的提取特定行技术正是这些高级操作的基础,以提取含有1的简单需求为例,我们可... 目录引言1、方法一:使用 grep 命令1.1 grep 命令基础1.2 命令详解1.3 高级用法2

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库