Redis分布式锁实现理解

200次阅读

共计 5007 个字符，预计需要花费 13 分钟才能阅读完成。

在 Redis 上，可以通过对 key 值的独占来实现分布式锁，表面上看，Redis 可以简单快捷通过 set key 这一独占的方式来实现，也有许多重复性轮子，但实际情况并非如此。
总得来说，Redis 实现分布式锁，如何确保锁资源的安全 & 及时释放，是分布式锁的最关键因素。
如下逐层分析 Redis 实现分布式锁的一些过程，以及存在的问题和解决办法。

solution 1 :setnx

setnx 命令设置 key 的方式实现独占锁

1，# 并发线程抢占锁资源
setnx an_special_lock 1
2，# 如果 1 抢占到当前锁，并发线程中的当前线程执行
if(成功获取锁)
execute business_method()
3，# 释放锁
del an_special_lock

存在的问题很明显：
从抢占锁，然后并发线程中当前的线程操作，到最后的释放锁，并不是一个原子性操作，
如果最后的锁没有被成功释放（del an_special_lock），也即 2~3 之间发生了异常，就会造成其他线程永远无法重新获取锁

solution 2：setnx + expire key

为了避免 solution 1 中这种情况的出现，需要对锁资源加一个过期时间，比如是 10 秒钟，一旦从占锁到释放锁的过程发生异常，可以保证过期之后，锁资源的自动释放

1，# 并发线程抢占锁资源
setnx an_special_lock 1
2，# 设置锁的过期时间
expire an_special_lock 10
3，# 如果 1 抢占到当前锁，并发线程中的当前线程执行
if(成功获取锁)
execute business_method()
4，# 释放锁
del an_special_lock

通过设置过期时间（expire an_special_lock 10），避免了占锁到释放锁的过程发生异常而导致锁无法释放的问题，
但是仍旧存在问题：
在并发线程抢占锁成功到设置锁的过期时间之间发生了异常，也即这里的 1~2 之间发生了异常，锁资源仍旧无法释放
solution 2 虽然解决了 solution 1 中锁资源无法释放的问题，但与此同时，又引入了一个非原子操作，同样无法保证 set key 到 expire key 的以原子的方式执行
因此目前问题集中在：如何使得设置一个锁 && 设置锁超时时间，也即这里的 1~2 操作，保证以原子的方式执行？

solution 3 : set key value ex 10 nx

Redis 2.8 之后加入了一个 set key && expire key 的原子操作：set an_special_lock 1 ex 10 nx

1，# 并发线程抢占锁资源, 原子操作
set an_special_lock 1 ex 10 nx
2，# 如果 1 抢占到当前锁，并发线程中的当前线程执行
if(成功获取锁)
business_method()
3，# 释放锁
del an_special_lock

目前，加锁 && 设置锁超时，成为一个原子操作，可以解决当前线程异常之后，锁可以得到释放的问题。

但是仍旧存在问题：
如果在锁超时之后，比如 10 秒之后，execute_business_method()仍旧没有执行完成，此时锁因过期而被动释放，其他线程仍旧可以获取 an_special_lock 的锁，并发线程对独占资源的访问仍无法保证。

solution 4: 业务代码加强

到目前为止，solution 3 仍旧无法完美解决并发线程访问独占资源的问题。
笔者能够想到解决上述问题的办法就是：
设置 business_method()执行超时时间，如果应用程序中在锁超时的之后仍无法执行完成，则主动回滚（放弃当前线程的执行），然后主动释放锁，而不是等待锁的被动释放（超过 expire 时间释放）
如果无法确保 business_method()在锁过期放之前得到成功执行或者回滚，则分布式锁仍是不安全的。

1，# 并发线程抢占锁资源, 原子操作
set an_special_lock 1 ex 10 n
2，# 如果抢占到当前锁，并发线程中的当前线程执行
if(成功获取锁)
business_method()# 在应用层面控制，业务逻辑操作在 Redis 锁超时之前，主动回滚
3，# 释放锁
del an_special_lock

solution 5 RedLock: 解决单点 Redis 故障

截止目前，（假如）可以认为 solution 4 解决“占锁”&&“安全释放锁”的问题，仍旧无法保证“锁资源的主动释放”：
Redis 往往通过 Sentinel 或者集群保证高可用，即便是有了 Sentinel 或者集群，但是面对 Redis 的当前节点的故障时，仍旧无法保证并发线程对锁资源的真正独占。
具体说就是，当前线程获取了锁，但是当前 Redis 节点尚未将锁同步至从节点，此时因为单节点的 Cash 造成锁的“被动释放”，应用程序的其它线程（因故障转移）在从节点仍旧可以占用实际上并未释放的锁。
Redlock 需要多个 Redis 节点，RedLock 加锁时，通过多数节点的方式，解决了 Redis 节点故障转移情况下，因为数据不一致造成的锁失效问题。
其实现原理，简单地说就是，在加锁过程中，如果实现了多数节点加锁成功（非集群的 Redis 节点），则加锁成功，解决了单节点故障，发生故障转移之后数据不一致造成的锁失效。
而释放锁的时候，仅需要向所有节点执行 del 操作。

Redlock 需要多个 Redis 节点，由于从一台 Redis 实例转为多台 Redis 实例，Redlock 实现的分布式锁，虽然更安全了，但是必然伴随着效率的下降。

至此，从 solution 1–>solution 2–>solution 3–solution 4–>solution 5，依次解决个前一步的问题，但仍旧是一个非完美的分布式锁实现。

以下通过一个简单的测试来验证 Redlock 的效果。

case 是一个典型的对数据库“存在则更新，不存在则插入的”并发操作（这里忽略数据库层面的锁），通过对比是否通过 Redis 分布式锁控制来看效果。

#!/usr/bin/env Python3
import redis
import sys
import time
import uuid
import threading
from time import ctime,sleep
from redis import StrictRedis
from redlock import Redlock
from multiprocessing import Pool
import pymssql
import random

class RedLockTest:

_connection_list = None
_lock_resource = None
_ttl = 10 #ttl

def __init__(self, *args, **kwargs):
for k, v in kwargs.items():
setattr(self, k, v)

def get_conn(self):
try:
#如果当前线程获取不到锁，重试次数以及重试等待时间
conn = Redlock(self._connection_list,retry_count=100, retry_delay=10)
except:
raise
return conn

def execute_under_lock(self,thread_id):
conn = self.get_conn()
lock = conn.lock(self._lock_resource, self._ttl)
if lock :
self.business_method(thread_id)
conn.unlock(lock)
else:
print(“try later”)

”’
模拟一个经典的不存在则插入，存在则更新, 起多线程并发操作
实际中可能是一个非常复杂的需要独占性的原子性操作
”’
def business_method(self,thread_id):
print(” thread —–{0}—— execute business method begin”.format(thread_id))
conn = pymssql.connect(host=”127.0.0.1″,server=”SQL2014″, port=50503, database=”DB01″)
cursor = conn.cursor()
id = random.randint(0, 100)
sql_script = ”’ select 1 from TestTable where Id = {0} ”’.format(id)
cursor.execute(sql_script)
if not(cursor.fetchone()):
sql_script = ”’ insert into TestTable values ({0},{1},{1},getdate(),getdate()) ”’.format(id,thread_id)
else:
sql_script = ”’ update TestTable set LastUpdateThreadId ={0} ,LastUpdate = getdate() where Id = {1} ”’.format(thread_id,id)
cursor.execute(sql_script)
conn.commit()
cursor.close()
conn.close()
print(” thread —–{0}—— execute business method finish”.format(thread_id))

if __name__ == “__main__”:

redis_servers = [{“host”: “*.*.*.*”,”port”: 9000,”db”: 0},
{“host”: “*.*.*.*”,”port”: 9001,”db”: 0},
{“host”: “*.*.*.*”,”port”: 9002,”db”: 0},]
lock_resource = “mylock”
ttl = 2000 #毫秒
redlock_test = RedLockTest(_connection_list = redis_servers,_lock_resource=lock_resource, _ttl=ttl)

#redlock_test.execute_under_lock(redlock_test.business_method)
threads = []
for i in range(50):
#普通的并发模式调用业务逻辑的方法，会产生大量的主键冲突
#t = threading.Thread(target=redlock_test.business_method,args=(i,))
#Redis 分布式锁控制下的多线程
t = threading.Thread(target=redlock_test.execute_under_lock,args=(i,))
threads.append(t)
begin_time = ctime()
for t in threads:
t.setDaemon(True)
t.start()
for t in threads:
t.join()

测试 1，简单多线程并发

简单地起多线程执行测试的方法，测试中出现两个很明显的问题
1，出现主键冲突（而报错）
2，从打印的日志来看，各个线程在测试的方法中存在交叉执行的情况（日志信息的交叉意味着线程的交叉执行）

Redis 分布式锁实现理解