Bitmap海量数据快速查找去重代码示例

作者:王者归来! 时间:2021-12-01 12:21:07 

题目描述

给你一个文件,里面包含40亿个整数,写一个算法找出该文件中不包含的一个整数, 假设你有1GB内存可用。

如果你只有10MB的内存呢?

解题思路

对于40亿个整数,如果直接用int数组来表示的大约要用4010^84B=16GB,超出了内存要求,这里

我们可以用bitmap来解决,bitmap基本思想是一位表示一个整数,比如我们有6个数据:

1
7 3 1 5 6 4

假设bitmap容量为8,当插入7时 bit[7]=1,以此类推

bit[3]=1

bit[1]=1

bit[5]=1

……

bit[4]=1

这样我们查询5,只需要查看bit[5]==1侧存在,否则不存在。

这样一个位代表一个数据,那40一个数据大概要4010^8bit = 0.5GB,满足内存要求。

实现细节

首先我们用int来表示:int bmap[1+N/32]; //N是总数,N=40亿,一个int32bit

然后我们插入一个整数val,要先计算val位于数组bmap中的索引:index = val/32;

比如整数33,index=33/32=1,第33位于数组中的index=1

比如整数67,index=67/32=2,位于数组中index=2

然后在计算在这个index中的位置,因为数组中的每个元素有32位

33,index=1,在1中的位置为33%32=1

67,index=2,在2中的位置为67%32=3

然后就是标识这个位置为1:

bmap[val/32] |= (1<<(val%32));

33: bmap[1] != (1<<1);//xxxxxx 1 x,红丝位置被置为1

67: bmap[2] != (1<<3);//xxxx 1 xxx

代码

void setVal(int val)
{
bmap[val / 32] |= (1 << (val % 32));
//bmap[val>>5] != (val&0x1F);//这个更快?
}

怎样检测整数是否存在?

比如我们检测33,同样我们需要计算index,以及在index元素中的位置

33: index = 1, 在bmap[1]中的位置为 1,只需要检测这个位置是否为1

bmp[1] &(1<<1),这样是1返回true,否侧返回false

67:bmp[2]&(1<<3)

127:bmp[3]&(1<<31)

代码:

bool testVal(int val)
{
return bmap[val / 32] & (1 << (val % 32));
//return bmap[val>>5] & (val&0x1F);
}

下面是完整测试代码:


const int N = MaxN;
const int BitLen = 32;
int bmap[1 + N / BitLen];

void setVal(int val)
{
 bmap[val / BitLen] |= (1 << (val % BitLen));
}

bool testVal(int val)
{
 return bmap[val / BitLen] & (1 << (val % BitLen));
}

void funTest()
{
 int a[] = { 1, 2, 3, 4, 6, 7};

for (int i = 0; i < 6; ++i)
 {
   setVal(a[i]);
 }

std:: cout << testVal(5) << std:: endl;
 return 0;
}

现在我们来看如果内存要求是10MB呢?

这当然不能用bitmap来直接计算。因为从40亿数据找出一个不存在的数据,我们可以将这么多的数据分成许多块, 比如每一个块的大小是1000,那么第一块保存的就是0到999的数,第2块保存的就是1000 到1999的数……

实际上我们并不保存这些数,而是给每一个块设置一个计数器。 这样每读入一个数,我们就在它所在的块对应的计数器加1。

处理结束之后, 我们找到一个块,它的计数器值小于块大小(1000), 说明了这一段里面一定有数字是文件中所不包含的。然后我们单独处理这个块即可。接下来我们就可以用Bit Map算法了。我们再遍历一遍数据, 把落在这个块的数对应的位置1(我们要先把这个数归约到0到blocksize之间)。 最后我们找到这个块中第一个为0的位,其对应的数就是一个没有出现在该文件中的数。)

代码如下(一个测试的代码):


const int N = 1000;
const int BITLEN = 32;
const int BLOCK_SIZE = 100;

int Bucket[1 + N / BLOCK_SIZE] = { 0};
int BitMap[1 + BLOCK_SIZE / BITLEN] = { 0};

void test()
{
 //生成测试数据
 freopen("test.txt", "w", stdout);
 for (int i = 0; i < 1000; ++i)
 {
   if (i == 127) {
     printf("0\n");
     continue;
   }
   printf("%d\n", i);
 }
 fclose(stdout);

//读入测试数据
 freopen("test.txt", "r", stdin);
 int Value;
 while (scanf("%d", & Value) != EOF) {
   ++Bucket[Value / BLOCK_SIZE]; //测试数据分段累计
 }
 fclose(stdin);

//找出累计计数小于BLOCK_SIZE的
 int Start = -1, i;
 for (i = 0; i < 1 + N / BLOCK_SIZE; ++i) {
   if (Bucket[i] < BLOCK_SIZE) {
     Start = i * BLOCK_SIZE;
     break;
   }
 }
 if (i == 1 + N / BLOCK_SIZE || Bucket[N / BLOCK_SIZE] == 0 && i == N / BLOCK_SIZE) return;
 int End = Start + BLOCK_SIZE - 1;

//在不满足的那段用bitmap来检测
 freopen("test.txt", "r", stdin);
 while (scanf("%d", & Value) != EOF) {
   if (Value >= Start && Value <= End)//Value必须满足在那段
   {
     int Temp = Value - Start;
     BitMap[Temp / BITLEN] |= (1 << (Temp % BITLEN));
   }
 }
 fclose(stdin);

//找出不存在的数
 freopen("re.txt", "w", stdout);
 bool Found = false;
 for (int i = 0; i < 1 + BLOCK_SIZE / BITLEN; ++i)
 {
   for (int k = 0; k < BITLEN; ++k)
   {
     if ((BitMap[i] & (1 << k)) == 0) {
       printf("%d ", i * BITLEN + k + Start);
       Found = true;
       break;
     }
   }
   if (Found) break;
 }
 fclose(stdout);
}

来源:https://www.cnblogs.com/mingweiyard/p/10025348.html

标签:Bitmap,数据,快速,查找,去重
0
投稿

猜你喜欢

  • Spring Boot缓存实战 EhCache示例

    2023-08-30 12:23:35
  • c#中LINQ的基本用法(三)

    2022-11-29 11:06:31
  • 解决persistence.xml配置文件修改存放路径的问题

    2023-07-16 09:53:54
  • Java日常练习题,每天进步一点点(17)

    2021-10-15 10:24:46
  • java实现点击按钮事件弹出子窗口

    2023-11-17 14:54:45
  • Java扩展库RxJava的基本结构与适用场景小结

    2022-12-27 10:03:15
  • Java中将String类型依照某个字符分割成数组的方法

    2022-04-24 16:50:19
  • Spring整合MyBatis图示过程解析

    2023-11-13 11:45:09
  • Java删除二叉搜索树的任意元素的方法详解

    2021-10-04 12:27:26
  • Java计算文本MD5加密值的方法示例

    2023-11-15 13:18:48
  • java实现FTP文件上传与文件下载

    2023-08-16 08:28:38
  • c#给图片添加文字的代码小结

    2023-10-15 13:38:51
  • SpringBoot之Json的序列化和反序列化问题

    2021-11-12 07:17:29
  • 国内分布式框架Dubbo使用详解

    2022-05-10 13:38:27
  • 详解Spring Cloud Zuul 服务网关

    2021-11-15 19:24:19
  • Android实战APP启动速度优化

    2023-03-21 15:34:18
  • 浅谈JAVA 内存流的实现

    2021-06-28 05:43:59
  • Android实现记住账号密码功能

    2021-10-02 01:51:24
  • 详谈signed 关键字

    2022-09-19 13:45:36
  • 关于MD5算法原理与常用实现方式

    2023-03-18 11:09:04
  • asp之家 软件编程 m.aspxhome.com