沃梦达 / IT编程 / 前端开发 / 正文

防止网站被采集的理论分析以及十条方法对策

以下是“防止网站被采集的理论分析以及十条方法对策”的完整攻略。

以下是“防止网站被采集的理论分析以及十条方法对策”的完整攻略。

1、理论分析

1.1 采集方式

网站被采集的方式非常多,常见的有以下几种:

  • 爬虫程序通过 URLs 或者搜索关键字进行遍历,抓取网站上的资源。
  • 通过采集插件,自动化脚本等方式,将网站上的信息通过 API 进行采集。
  • 通过监控网站 API 接口,抓取网站上的数据和内容。

1.2 采集特征

根据网站的特点和资源类型,一般采集特征有:

  • URL 特征。一些典型的 URL 参数、路径或者查询方式等,可能被爬虫所采集。
  • Cookie 特征。一些网站的登录状态、身份认证、网页缓存等信息,可能被爬虫程序所利用。
  • 频率特征。短时间内大量访问同一页面的用户,可能为爬虫程序。
  • 请求特征。一些网络请求的头部信息、请求参数等特征,可能被用于检测和拦截爬虫。

1.3 防护策略

为了提高网站的安全性和防止被采集,一般采用以下策略:

  • 限制爬虫。可以通过 robots.txt、User-Agent 和反爬机制等方式,限制或者防御爬虫访问。
  • 加密内容。可以通过 HTTPS、SSL 和加密算法等方式,保护数据的安全性。
  • 动态页面。可以通过 AJAX 等技术,实现动态页面,增加对爬虫的防御,提高极客门登录界面的安全性。
  • 频率和行为监测。可以通过 IP 的访问频率、行为分析等技术,检测和控制爬虫的采集。

2、十条方法对策

结合以上理论分析,我们具体了解下“防止网站被采集”的十条方法对策。

2.1 隐藏网站真实路径

为了防止爬虫利用 URL 的路径系统,这里我们充分利用 rewrite 和 htaccess 等功能来隐蔽真实路径。

# 将网站根目录的所有请求重定向到index.php文件中
RewriteEngine on
RewriteBase /
RewriteRule ^(.*)$ index.php/$1 [L]

2.2 防浏览器批量获取

可以通过设置 Cookie 和 IP 等方式,防止恶意浏览器进行请求。

$user_agent = empty($_SERVER['HTTP_USER_AGENT']) ? '' : strtolower($_SERVER['HTTP_USER_AGENT']);

if($user_agent && !in_array($user_agent, ['chrome','firefox','safari'])){
  if(count($_COOKIE) == 0){
    // 如果 cookie 为空,并且没有被禁止,则生成一个 cookie,把其值存在 session 中
    // 禁止访问index.php页面
    setcookie('cookie_check', '1', time() + 3600, '/');
    $_SESSION['cookie_check'] = true;
  }
}

if (count($_COOKIE) > 0 || ($_COOKIE['cookie_check'] ?? '') != 1) {
  die(pageBadRequest());
}

2.3 预防 XSS 攻击

XSS 攻击是最为常见的攻击方式,可以通过过滤用户输入和转义输出两个层面来进行防御。

// 对一些敏感的字符进行转义,例如 ' " < > / \
function convertXSS($string) {
  return str_replace(['"', "'", '<', '>', '/'], ['&quot;', '&#39;', '&lt;', '&gt;', '&#x2F;'], $string);
}

// 过滤输入字符
$uname = trim(preg_replace('/[^-a-zA-Z0-9_]+/', '', $_POST['user_name']));
$pwd = convertXSS(trim($_POST['password']));

// 在页面输出时,对一些敏感字符进行转义
echo convertXSS($user_info);

2.4 防 SQL 注入

为了防止不良分子利用 SQL 注入漏洞,我们需要进行防御。

$user_id = addslashes($_GET['user_id']);
$query_user = "SELECT * FROM `user_info` WHERE `user_id` = '$user_id'";

2.5 防止 CSRF 攻击

为了防止 CSRF 攻击,我们需要在页面中添加防护代码。

token_get();
<!-- 防止 CSRF 攻击 -->
<?php if (isset($_SESSION['token'])): ?>
  <input type="hidden" name="token" value="<?php echo $_SESSION['token']; ?>">
<?php endif; ?>

2.6 用户注册

用户注册时,应该采取以下措施:

  • 及时发送邮件过来让用户进行验证
  • 发送短信验证码确认是否真实手机号
  • 要求用户限制密码长度和复杂度
  • 限制同一个 IP 注册次数

2.7 设置热链和下载限制

为了防止热链和不良下载,可以在 nginx 中设置防止盗链的配置。

location ~* \.(jpg|jpeg|gif|png)$ {
  valid_referers none blocked http://127.0.0.1;
  if ($invalid_referer) {
    return 403;
  }
}

2.8 HTTP 响应头设置

HTTP 响应头的设置也是一个比较好的防范手段,可以通过设置 X-Frame-Options、X-XSS-Protection、X-Content-Type-Options 等字段来增加对可控内容的安全防护。

add_header X-Content-Type-Options nosniff;
add_header X-XSS-Protection "1; mode=block";
add_header X-Frame-Options "SAMEORIGIN";

2.9 安全检测

对网站整体安全检测,常见的有网站安全监控、云 WAF、安全组等解决方案。

2.10 更新网站系统

最后,建议及时更新网站系统和插件,保证系统的稳定性和安全性。

示例说明

  • 示例1:网站开放数据 API 接口,遭爬虫攻击采集

可以通过限制 HTTP 请求头部信息,检测网站 IP 访问频率,以及通过 Captcha 强制校验,增加网站被采集的难度。

  • 示例2:网站出于商业目的,发布了部分限制区域访问的文章,遭到爬虫采集

可以通过网站后台配置 IP 白名单限制区域,HTTP 响应头中添加关于限制区域的信息,以及在网站防灌水工具中添加首次访问验证码等防范措施。

本文标题为:防止网站被采集的理论分析以及十条方法对策