Лучший опыт

Вы устали от ограничений, н? ... Как обойти Cloudflare WAF: 10-этапный контрольный список веб-фильтрации | Обзоры лучших прокси-серверов

Как обойти Cloudflare WAF: 10-этапный контрольный список веб-фильтрации | Обзоры лучших прокси-серверов...

Вы устали от ограничений, налагаемых Cloudflare при попытке сканирования веб-сайта? Вы ищете способы обойти Cloudflare WAF? Тогда эта статья для вас. Узнайте, что нужно, чтобы этично обойти эту CDN и приложение безопасности.

Предприятия, желающие установить связь с клиентами в любой точке мира, сталкиваются с двойной проблемой в результате распространения Интернета на самые дальние уголки земного шара. В то время как некоторые корпоративные веб-сайты могут столкнуться с задержкой из-за географического положения, другие могут быть уязвимы для взлома или нарушения безопасности. Однако проблемы с задержкой и нарушениями безопасности можно решить. Сети доставки контента (CDN) являются одним из таких методов решения проблемы задержки в Интернете. При использовании CDN необходимо установить множество центров обработки данных по всему миру и настроить систему DNS для направления запросов на ближайший граничный сервер. С другой стороны, добавление программного слоя или фильтра для проверки онлайн-запросов до того, как они будут обработаны вашими системами, является одним из методов снижения угроз безопасности. Эти процедуры требуют много времени и денег. В этой ситуации на помощь приходит Cloudflare. Сеть доставки контента (CDN), известная под названием Cloudflare, предоставляет различные услуги, в основном сосредоточенные на сетевом взаимодействии и безопасности. Прежде чем мы сможем адекватно рассмотреть, что такое Cloudflare и что они делают, мы должны сначала признать, что некоторые люди — в основном веб-парсеры — не впечатлены или не удовлетворены их услугами. Сбор данных с целевых веб-сайтов известен как «веб-парсинг». Однако эти краулеры рассматриваются детекторами ботов, такими как Cloudflare, как опасные. Поэтому вполне логично, почему некоторые люди хотят избежать использования их услуг, особенно их методов обнаружения. В этой статье мы обсудим, как обойти метод обнаружения ботов Cloudflare.

Что такое Cloudflare?

Cloudflare — американская компания, предоставляющая услуги сети доставки контента (CDN), безопасности и широкий спектр других услуг для ускорения и защиты веб-сайтов. Когда компания Cloudflare начала свою частную деятельность в 2010 году, она не была тем, чем является сейчас. Она начиналась как исследовательская инициатива по выявлению причин спама в электронной почте. Основатели Project Honeypot, Ли Холлоуэй и Мэтью Принс, разработали концепцию и представили ее в 2004 году. Сегодня их цель — помочь в развитии лучшего Интернета. В результате среди услуг, предоставляемых Cloudflare, — DNS, балансировка нагрузки, ускорение мобильных страниц, опции кэширования, брандмауэр веб-приложений (WAF), поддержка SSL/TLS, защита от DDoS и т.д. Компания владеет и управляет обширной сетью серверов в качестве CDN и компании по обеспечению безопасности. Эти серверы одновременно ускоряют веб-страницы и защищают от вредоносных атак, таких как DDoS. Клиенты могут использовать брандмауэр веб-приложений, предоставляемый Cloudflare, в котором особое внимание уделяется безопасности (WAF). WAF может существенно защитить приложения от различных рисков безопасности, включая подстановку учетных данных, DDoS-атаки и межсайтовый скриптинг (XSS). В целом, веб-сайты, использующие такие услуги, как Cloudflare, более безопасны и обеспечивают лучший опыт серфинга для своих посетителей. Они имеют тесную интеграцию с такими известными платформами, как WordPress, Google Cloud, IBM Cloud и т.д. Более 26 миллионов веб-сайтов используют Cloudflare, который ежедневно обрабатывает более 1 миллиарда IP-адресов. Одним словом, Cloudflare — это всемирная сеть, созданная для того, чтобы сделать все, что вы подключаете к Интернету, безопасным, приватным, быстрым и надежным. Сюда входят ваши веб-сайты, API и веб-приложения.

Как работает Cloudflare?

Между клиентом и сервером Cloudflare выступает в качестве посредника, зеркалируя и кэшируя веб-сайты через обратный прокси-сервер. Он представляет собой стену, через которую посетители вашего сайта должны пройти больше, чем через что-либо другое. Cloudflare также обеспечивает определенную степень фильтрации для безопасности через эту промежуточную архитектуру. Он может блокировать спам, останавливать атаки ботов, распределенные атаки типа «отказ в обслуживании» и обнаруживать вредоносный трафик, вставая на пути между клиентом и сервером хостинга. Это достигается путем сканирования запросов, поступающих на ваш веб-сайт или онлайн-приложение. На основе сомнительных IP-адресов, типов ресурсов, к которым осуществляется доступ, полезной нагрузки запроса и частоты запросов он ищет вредоносное содержимое. При этом также учитывается брандмауэр с заданными клиентом правилами. Таким образом, пассивное и активное обнаружение ботов — это две широкие категории, на которые Cloudflare делит свои методы обнаружения. Активные методы обнаружения ботов зависят от тестов, проводимых на стороне клиента, в отличие от пассивных методов обнаружения ботов, которые используют проверку отпечатков пальцев на бэкенде. Cloudflare использует различные пассивные методы обнаружения ботов, включая обнаружение ботнетов, репутацию IP-адреса (оценка риска или мошенничества), заголовки HTTP-запросов и отпечатки пальцев TLS. Активные методы обнаружения ботов, используемые Cloudflare, включают CAPTCHA, отслеживание событий, отпечатки пальцев на холсте и запросы API среды.

Как обойти брандмауэр веб-приложений Cloudflare (WAF)

Cloudflare известна своим жестким кодексом поведения. Они используют как пассивные, так и активные методы обнаружения ботов, как уже было сказано выше. Однако вопрос в том, можно ли обойти Cloudflare? Это может быть непросто, но да, Cloudflare можно обойти. Это связано с тем, что не все краулеры являются вредоносными. Многие из этих ботов выполняют миссию по сбору данных с веб-сайтов. Тем не менее, существуют различные методы достижения этой цели, но в этой сессии мы рассмотрим несколько из них.

1. Уважайте Robots.txt

Стандарт исключения роботов или протокол исключения роботов также называется robots.txt. Веб-сайты с Cloudflare используют его в качестве средства связи для веб-краулеров, парсеров и других ботов для автоматизации веб-сайтов. В то время как некоторые компании, занимающиеся онлайн-парсингом, включая некоторые поисковые системы, такие как Google и Bing, уважают файл robots.txt сайта, большинство веб-парсеров, например, сборщики электронной почты и другие многочисленные боты, не уважают его. Кроме того, владельцы сайтов имеют право решать, разрешать или не разрешать ползание или парсинг своего сайта. В то время как другие сайты могут парсить некоторые веб-страницы, некоторые сайты запрещают ботам делать это. Веб-краулеры должны уважать файл robot.txt веб-сайта во время сканирования. Вы должны соблюдать содержащиеся в этом файле правила относительно количества раз, которые вы можете парсить, и страниц, которые вы можете спарсить. Старайтесь воздерживаться от постоянного переполнения веб-сайтов запросами за короткий промежуток времени.

2. Используйте показатели качества

Одним из способов пассивного обхода Cloudflare при попытке спарсить защищенный веб-сайт является использование качественных прокси-серверов. Вам нужен способ, при котором ваши учетные данные не будут переданы, особенно если вы занимаетесь парсингом на сайте, в который интегрирован Cloudflare. Большинство веб-сайтов регистрируют IP-адреса своих посетителей. В результате, выполняя обширные операции по парсингу на значимом сайте, вы должны сохранять большое количество IP-адресов. Для этой цели отлично подходят прокси-провайдеры, такие как BrightData. Они располагают огромным пулом IP-адресов для работы.

  • Brightdat aresidential Proxy Network — выбор редактора
  • Soax mobile Proxy Network — самый стабильный выбор
  • Жилой прокси-сервер Smartproxy — выбор бюджета

Вы также можете обратиться к частным прокси-провайдерам, таким как MyPrivateProxy, чтобы получить нужный пул IP-адресов, которые будут правильно маскировать вашу личность, чтобы обойти обнаружение Cloudflare. Для надежности лучше всего подойдут частные прокси, хотя они могут обойтись вам в копеечку. Суть в том, что прокси-серверы гарантируют, что обнаружение Cloudflare вас не заметит.

3. Обратите внимание на HTTP-заголовки

По заголовкам HTTP-запросов Cloudflare может определить, являетесь ли вы роботом. Небраузерный пользовательский агент, например python-requests/2.22.0, позволяет легко идентифицировать парсера как бота. С помощью правил модификации заголовков HTTP-запросов вы можете изменять заголовки входящих HTTP-запросов. Эта коллекция правил позволит вам сделать это. Сначала установите буквальное строковое значение в качестве значения заголовка HTTP-запроса. Его предыдущее значение будет заменено на это, или запрос получит новый заголовок.

Во-вторых, изменить значение заголовка HTTP-запроса, добавив новый заголовок или перезаписав существующий в соответствии с выражением. К счастью, удалить HTTP-заголовок из запроса невозможно. Однако это можно сделать с помощью API или приборной панели для создания правила изменения заголовка HTTP-запроса.

4. Измените схему ползания.

Для людей, которые не знают, как ползать по сайту без блокировки, попадание в черный список при парсинге — обычная проблема. Люди обычно варьируют задачу и не выполняют ее многократно. Они демонстрируют нерациональное поведение во время парсинга. С другой стороны, боты, поскольку они предназначены для этого, всегда выполняют поиск одним и тем же способом. Если их специально не проинструктировать, они никогда не изменяют шаблон. По сути, шаблон краулинга описывает, как ваш краулер настроен на навигацию по странице. Если вы продолжите использовать один и тот же шаблон ползания, Cloudflare определит вас и заблокирует. Чтобы ваш краулинг выглядел менее предсказуемым, вы можете добавить спорадические щелчки, прокрутки и движения мыши. Однако поведение не должно быть полностью непредсказуемым. При создании шаблона ползания подумайте о том, как типичный пользователь будет перемещаться по сайту, а затем правильно примените эти принципы к инструменту.

5. Будьте осторожны с медовыми точками

Веб-сайты принимают чрезвычайные меры предосторожности, например, интегрируют Cloudflare для защиты от хакеров. Они размещают «медовые точки», чтобы завлечь хакеров и выяснить, были ли предприняты попытки взлома сайта. В HTML-коде ссылки называются медовыми точками. Хотя эти ссылки скрыты от органических пользователей, веб-гусеницы могут их видеть. Поскольку на такой сайт могут перейти только роботы, «медовые точки» используются для идентификации и предотвращения веб-краулеров. Установка honeypots требует значительных усилий.

Поэтому не так много людей выбирают этот метод. Однако имейте в виду, что ваша цель может использовать ловушки honeypot, если ваш запрос отклонен, а краулер найден. Понятно, что такое обнаружение сложно, и для его корректного выполнения требуется много усилий программистов. В результате ни на стороне сервера, ни на стороне бота или пармсера эта техника обычно не используется.

6. Используйте безголовые браузеры

Использование безголовых браузеров — еще один способ обойти проверку Cloudflare. Содержимое, отображаемое на веб-сайтах, зависит от используемого браузера. Проблема заключается в том, что при выполнении любого вида соскабливания данных содержимое отображается в JS-коде, а не в необработанном HTML-ответе сервера. В этой ситуации можно использовать безголовый браузер, чтобы избежать ограничений. Даже использование Chrome в безголовом режиме является одним из способов избежать обнаружения бота Cloudflare. Использование undetected-chromedriver для настройки контекста просмотра Chrome является одним из наиболее эффективных подходов. Undetected-chromedriver — это патч Selenium Chromedriver, оптимизированный таким образом, что он не активирует службы защиты от ботов, такие как Distill Network, Imperva, DataDome или Botprotect.io. Попробуйте Selenium или puppeteer-extra-plugin-stealth для улучшения показателей успешности.

7. Не противоречить JavaScript Challenge

Вложенные элементы JavaScript затрудняют получение данных. Многочисленные функции JavaScript используются веб-сайтами для отображения содержимого в ответ на определенные действия пользователя. Стандартной процедурой является показ фотографий товаров в поле поиска только после того, как пользователь ввел определенную информацию. Многочисленные другие проблемы, включая утечку памяти, нестабильность приложения, а иногда и полные сбои, также могут быть вызваны JavaScript. Динамические функции часто доставляют неудобства. JavaScript следует использовать только в крайних случаях.

8. Используйте сервисы для решения проблемы Captcha

Одним из самых популярных инструментов борьбы с мошенничеством является капча. Веб-сайты просят пользователей выполнить различные загадки, чтобы проверить, являются ли они людьми или нет. Поэтому краулеры, как правило, не могут обойти капчу на сайтах. Даже самые опытные веб-парсеры иногда сталкиваются с CAPTCHA. Однако еще одним вариантом является обход обнаружения Cloudflare с помощью решателя Captcha.  Итак, чтобы убедиться, что ваши операции по парсингу на сайте с интеграцией Cloudflare не будут нарушены. Для решения этой задачи существуют различные сервисы решения CAPTCHA. Подойдут как решатели, основанные на машинном обучении, так и люди. Плагин Google Chrome 2Captcha Solver — один из примеров, который выполняет эту задачу автоматически. Однако не все сложные CAPTCHA могут быть решены с его помощью. На страницах, защищенных Cloudflare, очевидно, нет простого способа обойти капчу. Для этого, однако, необходимо понять, как токен шифруется кодом Javascript. Чтобы проверить код функции обратного вызова, вы можете использовать плагин 2Captcha Solver для Google Chrome.

9. Остерегайтесь изменения макета сайта

Многочисленные веб-сайты могут менять свой дизайн в дополнение к обнаружению ботов Cloudflare по ряду причин. Парсеры могут испытывать трудности с динамическими макетами на некоторых сайтах, поскольку они часто меняются. Дизайн можно увидеть на сайтах в неожиданных местах. Крупные веб-сайты также используют эту технику. Чтобы продолжать парсинг, ваш краулер должен уметь распознавать эти постоянные изменения. Этого можно легко добиться, отслеживая количество успешных запросов за одно посещение. Используя XPatga или селекторы CSS, вы также можете сопарсить информацию с этих сайтов.

10. Не давите на сервер во время ползания.

Автоматические решения становятся все более распространенными, позволяя людям быстро преобразовывать веб-данные в электронные таблицы для решения проблем, поскольку все больше людей обращаются к веб-парсингу для сбора данных. В результате процесса веб-парсинга целевой веб-сайт подвергается большему давлению. Сервер сайта может упасть, если краулер будет беспрепятственно посылать на него слишком большое количество запросов. В связи с этим парсеры часто получают запреты. Методы борьбы с краулингом созданы для того, чтобы распознавать эту специфическую деятельность и блокировать IP-адрес. Чтобы избежать этого, замедлите некоторые из ваших запросов. Для этого полезен временной модуль Python, хотя интеллектуальный антипарсинговый инструмент все равно может это заметить. Поэтому выберите случайную опцию в модуле времени, чтобы имитировать поведение человека.

Часто задаваемые вопросы об обходе Cloudflare

Q. Есть ли способ обойти Cloudflare при парсинге? Сайт, использующий Cloudflare в качестве защиты, будет иметь проверки безопасности, которые вы не сможете обойти. Иногда провал этих проверок может привести к отказу в доступе. Запросы, поступающие с IP-адресов с плохой репутацией, могут привести к тому, что вы будете перенаправлены на страницу запроса капчи. Тем не менее, существуют методы, позволяющие избежать обнаружения Cloudflare. Некоторые из способов обхода обнаружения Cloudflare включают использование решателей Captcha, использование безголовых браузеров, внимание к robots.txt и honeypots, а также многие другие.  Чтобы ознакомиться с другими, просмотрите темы в этой статье.

Q. Почему я должен обходить Cloudflare? Если вам не нужно обходить обнаружение Cloudflare, это совершенно правильно. Кроме того, служба Cloudflare по обнаружению ботов сама по себе не является ужасной. Проще говоря, она не одобряет инструменты для добычи данных и действия по парсингу. Другие боты определяются как угрозы, за исключением тех, которые были внесены в белый список. Если вы не обойдете эту службу, ваша программа веб-парсинга не сможет собрать нужный вам объем данных.

Q. Является ли незаконным обход Cloudflare? Это может быть очень сложным вопросом, когда речь идет о юридических аспектах. Однако если вы законно обходите Cloudflare на сайте, который вам не принадлежит или у вас нет разрешения на проведение DDoS-атаки, вы нарушаете закон. Для ясности, существуют моральные способы избежать обнаружения Cloudflare. Ваши действия могут быть признаны преступными, если вы не выполните свои обязательства. Поэтому перед применением обходного пути целесообразно ознакомиться с его юридическими последствиями.

Заключение

Данные стали движущей силой для многих людей и организаций, поэтому возникла необходимость в соскабливании данных. Хотя некоторые сайты позволяют это делать, другие — нет. На сайтах, защищенных такими веб-решениями, как Cloudflare, соскабливание может быть невероятно сложным. Хотя Cloudflare по своей сути не является негативным решением, оно лишь ограничивает веб-краулеры. Как стало ясно из этой заметки, один из методов выполнения задач по парсингу на таких сайтах заключается в том, чтобы обойти механизмы обнаружения Cloudflare. Вы можете обойти Cloudflare несколькими различными способами, которые мы подробно описали. Ознакомьтесь с ними, чтобы понять, какой из них может оказаться наиболее полезным для вашего обхода.