什么是数据倾斜?(症状、如何预防)


什么是数据倾斜?

在倾斜攻击中,攻击者试图伪造(或倾斜)数据以影响组织对其有利的决策。倾斜攻击可分为两种类型:

  • 机器学习数据投毒攻击 − 当攻击者更改机器学习算法使用的训练数据时,就会发生这种情况,导致算法出错。

  • 网络分析倾斜 − 攻击者通过部署机器人发出大量自动查询来操纵来自 Google Analytics 或 Adobe Analytics 等系统的分析数据。目标是使其看起来好像网站访问者比实际情况更频繁地完成特定操作。

网络分析倾斜是如何工作的?

典型的网络分析倾斜攻击是这样的:

  • 攻击者使用机器人发出自动 HTTP 请求,以增加对特定页面的访问次数。这些通常是具有交易价值的页面,例如电子商务产品页面。

  • 网络分析系统记录了大量的点击次数,网站所有者认为对该商品有很大的兴趣。

  • 在某些情况下,倾斜机器人会尝试执行转换操作,例如填写表单或进行购买。这需要一个更高级的机器人框架,类似于抢票机器人使用的框架。

伪造的分析数据可能会导致商业决策,例如网站所有者更突出地推广产品或将其包含在广告活动中。由于攻击者是目标页面上推广产品的附属机构,因此商业决策对他们有利。

倾斜的后果是什么?

数据用于做出关键的业务决策,例如安全事件分类、网站改版成功或失败、营销甚至产品定价。如果数据不准确,则基于该数据做出的决策也将不准确,从而损害公司所有者的利益。

以下是一些可能受倾斜影响的不良业务决策示例:

  • 将垃圾邮件或重复登录尝试错误分类为有效。

  • 例如,在大型电子商务公司中,在 A/B 测试中选择错误的设计可能会导致巨大的经济损失。

  • 做出不准确的自动判断,例如错误地向某人授予信用评级

  • 例如,通过错误计算广告的质量得分,降低主要广告商的每次点击付费广告成本

  • 根据产品页面点击次数或转化活动过度补偿联盟或合作伙伴

倾斜尝试的症状

注意网站流量或应用程序使用情况中的以下倾斜情况,并调查它们以确定它们是否与倾斜相关:

  • 异常的流量峰值

  • 某些用户群的异常增加

  • 异常高的页面数量或每次会话花费的时间

  • 跳出率非常高。

  • 在程序中,异常的用户行为

  • 异常使用会影响安全或花费金钱的产品或网站功能

预防倾斜攻击

为帮助防止网站上的倾斜,请使用以下建议的实践:

  • 虽然经验丰富的攻击者可能会在其 HTTP 标头中使用现代浏览器和用户代理,但许多“脚本小子”部署的机器人基于过时的浏览器。您可以完全禁止这些过时的浏览器版本或使用严格的 CAPTCHA,而不会冒着扰乱许多真实用户的风险。

  • 阻止已知的恶意主机和代理。编译已知恶意主机和代理网络的列表。允许来自此类来源的访问可能会阻止攻击者试图歪曲您的网站、API 或移动应用程序。请记住,攻击者可以使用更强大的匿名化技术,例如住宅代理。

  • 考虑机器人可能通过互联网连接到您的系统的多种方式,在您的网站之外,以保护容易受到机器人攻击的访问点。API、移动应用程序以及任何其他面向公众的端点都应受到保护。当您发现并禁止机器人时,请确保在所有端点上发布此信息。

  • 检查流量来源。定期查看分析或模型训练数据,深入研究并查找具有独特特征的细分市场。如果您找到一个,请进一步调查以查看它是否包含机器人创建的数据。调查使用量的峰值——如果您的网站或应用程序的使用量突然增加,请调查哪些功能受到影响。

如果您能够将整个激增追溯到单个流量来源、用户组或功能,则表示您正在处理倾斜攻击。

检测到倾斜攻击后,请采取以下步骤来预防它们:

  • 在您的网络分析中过滤掉有害来源。

  • 在网络分析中阻止有害 IP。

  • 检查防火墙日志中与异常分析数据相关的有害机器人流量,然后设置防火墙以阻止它。

更新于:2022年6月2日

354 次查看

启动您的职业生涯

完成课程获得认证

开始
广告
© . All rights reserved.