正则表达式也会导致拒绝服务？探讨 ReDos（可能会中招哦）

200次阅读

共计 2667 个字符，预计需要花费 7 分钟才能阅读完成。

介绍

当您想到 拒绝服务攻击 时，您会想到什么？可能是一大群机器人试图访问 Web 服务器的资源以使其瘫痪。好吧，这肯定是导致 拒绝服务攻击 的一种方式。但是，还有一种您可能没有听说过的方式。它被称为 ReDoS，是由正则表达式引起的。

正则表达式？但这怎么可能呢？那不是通过使用过滤器来匹配字符串、将字符串列入白名单和黑名单，从而使我们的工作更轻松吗？是的，但是攻击者也可以利用它来使应用程序（服务器）屈服。让我们了解如何！

正则表达式是什么？

正则表达式也会导致拒绝服务？探讨 ReDos（可能会中招哦）

简而言之，正则表达式是一种用于匹配（编程语言中）字符串的模式。让我们通过一个示例来理解它吧，该示例是“用正则表达式在服务器端验证电子邮件地址”。

正则表达式也会导致拒绝服务？探讨 ReDos（可能会中招哦）

上面是一段 JavaScript 代码（译者注：不会 JS 也无妨，对阅读本文的影响不大，请继续阅读）。我们在这里使用的正则表达式是 [a-z0–9]+@[a-z]+\.[a-z]{2,3}。我们提供了几个电子邮件地址，然后我们需要检查它们是否遵循电子邮件地址的一般模式。让我们分解一下正则表达式。

[a-z0–9]+：表示此处的字符串可以是任何小写字母和数字。末尾的加号 (+) 表示必须至少有一个字符（无论是小写字母还是数字）。
@：表示此处应该有 AT（@）符。
[a-z]+：表示此处字符串应该包含（一个或多个）小写字母的字符
\.：表示此处应该有一个点（.）
[a-z]{2,3}：表示此处字符串是由小写字母组成的，但其长度只能是 2 或 3。

让我们将其与我们选择的电子邮件 ID 进行比较。让电子邮件 ID 为 yourremail12@yahooemail.com。

youremail12@ 对应于 [a-z0-9]+@
yahooemail 对应于 [a-z]+
.com 对应于 \.[a-z]{2,3}

这通常是正则表达式的工作方式。但这不是会按预期工作吗？这如何能导致拒绝服务攻击呢？让我们了解一下。

正则表达式由正则表达式运算器处理。在 ReDoS 攻击期间，攻击者通过提供输入字符串强制正则表达式运算器陷入循环。当它处于循环中时，正则表达式运算器可能会花费大量时间，并消耗大量资源。这会导致其他合法客户端无法使用资源，并可能导致 Web 服务器和应用程序无响应并最终崩溃。

另一种情况可能是设计不良的正则表达式模式，这可能导致输入验证失败，在正则表达式运算器解析时会消耗大量时间等。

有害正则表达式（Evil Regex）

有害正则表达式 模式是攻击者可以利用的正则表达式。根据 Wikipedia，这些是 有害正则表达式 模式的特征。

正则表达式将重复（+、*）应用于复杂的子表达式。
对于重复的子表达式，存在一个匹配，同时该匹配也是另一个有效匹配的后缀。

这说明了如果已经有一个复杂的子表达式，并且应用一些像 + 或 * 这样的贪婪运算符，可能会导致一个有害的正则表达式。

例如，

我们考虑以下正则表达式：^(a+)+$

^ 和 $ 定义了字符串必须分别以 a 开头和结尾。

如果我们提供 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa，正则表达式运算器将在几毫秒内处理它并返回 True。

如果我提供 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa!，你觉得会发生什么！

如果您运行它，则对于所提供的正则表达式，（在返回 False 之前）需要花费大约 2 秒的时间来处理。只是通过添加 一个额外的感叹号 会导致这么长的时间吗？

让我们从 正则表达式运算器 的角度来看看它是如何工作的。正则表达式运算器直到达到 感叹号 之前将会正常工作。由于我们没有指定查找 (!) 标记，因此它会回溯到前面的字母，并查看是否有另一种方法来解析先前的字符，以便可以验证整个字符串。在它最终发现 绝不会 返回 True 之前，这样的回溯将会 一直持续下去。

如您所知，回溯会导致大量时间消耗。攻击者可以使用它来利用 有害正则表达式 模式。