共计 2372 个字符,预计需要花费 6 分钟才能阅读完成。
导读 | 这篇文章主要介绍了 Redis 中 HyperLogLog 的使用详情,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下 |
HyperLogLog,基数统计;
那什么是基数?
比如有两个数组
数组 A = [1,2,3,4,5];
数组 B = [3,4,5,6,7];
这时候基数就是 [1,2,3,4,5,6,7],总共有 7 个数;
就是去重之后的数据;
HyperLogLog 就是用来做去重复统计的;
bitmap 在做统计时,虽然使用的是 bit 来做记录,已经很节省空间了;
但是在随着数据量快速增长的情况下,bitmap 也是很占内存空间的;
而 HyperLogLog 就不同了,HyperLogLog 的每个 key 只占用 12kb 的内存,
就可以统计 2 的 64 次方个基数;
而且不会随着数据量的增多而变大,就是固定的 12kb;
这是因为 HyperLogLog 每次只会根据添加的数据去计算基数,而不保存添加的数据本身;
但这也造成了一个问题,就是 HyperLogLog 基数统计的准确率不是 100%,会有 0.81% 的误差;
但对于亿级数据的统计,这点误差似乎可以忽略不计;
同样的,bitmap 记录数据本身,它的计算是精确的;
所有,也可以说 HyperLogLog 是一种概率计算,但是误差是很小的。
这是 reidis 作者写的关于 HyperLogLog 的文章
HyperLogLog 的使用也非常简单,就 3 个操作 api
pfadd key value [value ...]
pfadd 20220628:uv ip1 ip2 ip3
pfadd 20220629:uv ip1 ip2 ip3 ip4 ip5
pfadd 20220630:uv ip2 ip4 ip5 ip6 ip7 ip8
重复数据不会被保存,返回的是 0
> pfadd 20220628:uv ip1 ip2 ip3
1
> pfadd 20220628:uv ip1 ip2 ip3
0
获取 HyperLogLog 的基数估算值
PFCOUNT key [key ...]
> pfcount 20220628:uv 20220629:uv
5
合并得出的不会被储存,使用之后就会被删掉
合并多个 key
pfmerge destkey key [key ...]
> pfmerge result 20220628:uv 20220629:uv 20220630:uv
OK
pfmerge 合并多个 key 后,会生成一条 result 数据
然后再对 result 做 pfcount 操作
> pfcount result
8
这时候拿到的值就是 上面 3 个 key 计算出来的基数。
HyperLogLog 在 spring 里的使用也非常简单,
pfadd 对应的是 .add() 操作;
pfcount 对应的是 .size() 操作;
pfmerge 对应的是 .union() 操作;
下面是使用的 Demo
import org.junit.jupiter.api.Test;
import org.junit.runner.RunWith;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.data.redis.core.HyperLogLogOperations;
import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.test.context.junit4.SpringRunner;
import javax.annotation.Resource;
@SpringBootTest
@RunWith(SpringRunner.class)
class RedisTest {
@Resource
private RedisTemplate redisTemplate;
@Test
void hyperLogLogTest() {HyperLogLogOperations hyperLogLogOperations = redisTemplate.opsForHyperLogLog();
// 添加元素
Long add = hyperLogLogOperations.add("20220628:uv", "ip1", "ip2", "ip3");
System.out.println("add :" + add);
hyperLogLogOperations.add("20220629:uv", "ip1", "ip2", "ip3", "ip4", "ip5");
hyperLogLogOperations.add("20220630:uv", "ip2", "ip4", "ip5", "ip6", "ip7", "ip8");
// 获取元素基数
Long size = hyperLogLogOperations.size("20220628:uv", "20220629:uv");
System.out.println("size :" + size);
// 合并多个元素
Long result = hyperLogLogOperations.union("unionResult", "20220628:uv", "20220629:uv", "20220630:uv");
System.out.println("result :" + result);
Long unionResult = hyperLogLogOperations.size("unionResult");
System.out.println("unionResult :" + unionResult);
}
}
到此这篇关于 Redis 中 HyperLogLog 的使用详情的文章就介绍到这了