Что такое парсинг? Как бороться с парсингом?

Сайт — это визитка любого бизнеса в интернете. Наполнение и актуализация контента сайтов с большими товарными каталогами занимает много времени и ресурсов. Поэтому часто недобросовестные конкуренты крадут контент с других сайтов. 

Что такое — парсинг?
Парсинг — это сбор информации с других сайтов и сторонних ресурсов. Делают это либо специально нанятые люди, либо программы (парсеры).
Парсеры воруют содержимое кода, контент сайта и информацию, которая находится в общем доступе.

Какая цель парсинга?

Парсер анализирует данные сайта с учетом заданных фильтров, собирает контент, систематизирует и преображает тексты и другие элементы. Чаще парсингу подвергаются площадки по продаже товаров и услуг.

Парсеры могут:

  • Красть товарные каталоги. Каждый товар в интернет-магазине имеет свое описание. Чтобы не заполнять карточки товара вручную, эту информацию парсят с других источников.
  • Собирать информацию по ценам. Конкуренты отслеживают изменение стоимости товаров на рынке, чтобы корректировать цены на своем ресурсе.
  • Заимствовать новые идеи и уникальные предложения конкурентов. При парсинге часто конкуренты присваивают ваши условия, идеи и новые предложения при продаже аналогичных товаров.
  • Красть базы данных клиентов с личной (конфиденциальной) информацией. С помощью парсинга можно сформировать свою базу клиентов. Для этого парсят контактные данные пользователей: социальные сети, электронные почты, телефоны. Данные должны находиться в открытом ресурсе, архиве или резюме.
  • Понижать позиции конкурентов в поисковой выдаче. Сайт конкурента, который скопировал у вас информацию, будет проиндексирован поисковыми системами. В результате в поисковой выдаче, ваш сайт может находиться ниже, чем сайт конкурента.

Парсить законно?
Информацию, которая защищена авторским правом, использовать в личных целях нельзя. Но сбор и использование информации, которая находится в открытом доступе, не считается нарушением закона. Поэтому за сбор данных с ваших открытых ресурсов предъявить конкуренту претензию, согласно закону, вы не сможете.

Как защититься от парсинга?
Ниже перечислены способы защиты от парсинга:

Способ 1.  Для защиты сайта можно попробовать вычислить IP–адрес, с которого ваш сайт пытаются парсить и заблокировать его. Это занимает время и используется в редких случаях.  Также есть риск заблокировать «хорошего» бота, который является индексатором поисковых систем. Такой способ  не защитит ваш сайт от новых парсеров и каждый раз необходимо будет вручную блокировать подозрительные IP-адреса.

Способ 2. Внедрить сценарии JavaScript на страницах вашего сайта. JS-код может затормозить работу парсера, т. к. многие парсеры не обучены его игнорировать. К тому же скрипт может останавливать работу полезных роботов.

Способ 3. Самый действенный вариант — установить  специальный скрипт, например, Antibot Pro. В  защите сайта он переводит подозрительные IP–адреса на страницу проверки, а реальных пользователей пропускает на сайт. Antibot запоминает  IP–адреса реальных пользователей и не беспокоит их при повторном посещении сайта. 

Antibot Pro проверяет ваш IP-адрес:

Проверка IP-адреса Antibot Pro

Так выглядит проверка подозрительного IP-адреса:

Проверка подозрительного IP-адреса Antibot Pro

Когда на ваш сайт заходит робот-парсер, Antibot Pro блокирует для него вход:

Antibot Pro перед роботом-парсером

Вывод
Парсинг опасен для любых сайтов. Его используют для кражи каталогов товаров, сбора информации по ценам магазина, воровства уникальных предложений, кражи базы данных пользователей. Если не защищать сайт от роботов-парсеров, то он может потерять свои позиции в поисковой выдаче.

Избежать атаки можно защитив сайт специальными программами, например Antibot Pro.