Лучший опыт

Вы должны просматривать да? ... Законно ли парсить сайты?

Законно ли парсить сайты?...

Введение

Вы должны просматривать данные на сайтах конкурентов? Вы можете получить определенное конкурентное преимущество, если будете знать, как работают другие компании. Однако такие данные вам нужно получать не один раз, а регулярно.

Хотите парсить сайты, но не уверены, допустимо ли это с юридической точки зрения? Не волнуйтесь. Все хотят и многие не уверены, законно ли автоматическое извлечение данных. Некоторые люди просто получают данные и не останавливаются ни перед чем.

Другие не уверены, что получение описаний продуктов с сайтов магазинов не  приведет к юридическим проблемам. Не беспокойтесь. Чтобы положить конец дискуссии, мы написали эту статью, в который развеиваем все мифы о легальности парсеров.

Почему парсинг часто выглядит неэтичным?

Когда вы занимаетесь парсингом веб страниц, вы вряд ли находите это оскорбительным или неэтичным. Однако, если кто-то другой использует ваш сайт для получения конкурентного преимущества или финансовой выгоды, вы, конечно, приходите в бешенство.

В этом-то все и дело. Парсинг, как правило, не проводится в академических или исследовательских целях.

Люди думают, что парсинг — это процесс, с помощью которого компании вторгаются в чужое пространство и получают конкурентное преимущество и соответствующую финансовую выгоду.

Как мы зарабатываем на парсинге сайтов?


Вот ключевые моменты, почему люди считают веб-скрапинг оскорбительным и даже неэтичным, на грани законности:

  • Поскольку данные дают немедленное конкурентное преимущество для компаний, они занимаются поиском в Интернете, чтобы получить необходимую информацию. При этом они, конечно, преследуют определенные финансовые цели. Это создает ощущение, что парсинг предназначен для зарабатывания денег. Людям не нравится то, что неправильно используется для получения дохода. Вот почему люди считают парсинг оскорбительным и даже неэтичным.
  • Когда компании или частные лица занимаются парсингом, они иногда пересекают черту и нарушают нормы авторского права или условия обслуживания. Извлечение данных с веб-страниц выглядит как агрессивное занятие, в котором не уважаются этические или юридические нормы. По этой причине людям трудно воспринимать парсинг в позитивном свете.
  • Время от времени людей просто оскорбляет то, как происходит парсинг. Например, когда боты отправляют больше запросов, чем обычные пользователи. Это вызывает большую нагрузку на сайт.
  • Каждый сайт защищает свои данные. Те, кто занимается извлечением данных, могут не уважать или не соблюдать эти меры безопасности. Они могут обходить их и решать свои задачи, не заботясь о конфиденциальности или проблемах безопасности.

Парсинг в интернете раздражает людей и заработал плохую репутацию. Однако, по иронии судьбы, каждый, кто находит парсинг оскорбительным, нуждается в нем не меньше всех остальных!

Аргументы в пользу парсинга

Как ни крути, наш мир — мир данных. Независимо от того, в какой сфере вы работаете, вам нужен доступ к информации. Без данных невозможно добиться реального прогресса.

Если невозможно работать или вести индивидуальный бизнес без использования данных, представьте себе, что значат данные для больших международных компаний.

Представьте, что ваша компания — многомиллиардная корпорация, которой нужно разработать новую маркетинговую кампанию. Можно ли просто создать ее наугад?

Конечно, нет!

Вам нужно что-то, на чем можно основать свою политику и стратегию. Здесь в игру вступают данные. Вам понадобятся надежные и свежие данные, касающиеся вашей области деятельности. Вот где парсинг становится огромным благом.

Мало того, что веб-парсинг может автоматизировать процесс сбора данных, он также может сделать их доступными в кратчайшие сроки.

Сканирование интернета может облегчить поиск данных, поскольку оно может сделать их доступными в одном месте. Более того, данные могут быть доступны, но в неудобном для использования формате. Парсинг может извлечь данные и сохранить их в нужном вам виде, например, в Excel, чтобы можно было обрабатывать и использовать их так, как вам удобно.

Парсинг веб-страниц является большим подспорьем информационных технологий,  помощью, без которой цифровой мир, в нынешнем его виде, может зайти в тупик.

Пока парсинг остается в законных границах и обеспечивает получение нужных вам данных, не должно быть никаких оснований называть его неправильным или незаконным.

Парсинг законен или нет?

Давайте возьмем практический пример, чтобы понять это. Craigslist подал в суд на компанию под названием Instamotor за парсинг своего контента для создания собственных списков объявлений и рассылки писем пользователям Craigslist о продаже подержанных автомобилей.

Угадайте, что случилось дальше? Instamotor было приказано выплатить Craigslist 31 миллион долларов. Как можно видеть, парсинг стал довольно неприятным событием с юридической точки зрения.

Вы можете задаться вопросом, насколько же этот процесс законен и когда он становится незаконным? Когда он может стать уязвимыми для таких судебных процессов?

Мы собрали для вас ключевые моменты, чтобы узнать, насколько законным или незаконным является ваш процесс извлечения данных.

Парсинг законен или нет?
9 вариантов ответа на этот вопрос
ЛегаленНелегален
1. Закон о компьютерном мошенничестве и злоупотреблениях (Computer Fraud and Abuse Act, CFAA)
Пока вы используете парсинг не агрессивно, он легален. До тех пор, пока вы не используете данные для коммерческой выгоды, вы не нарушаете CFAA.CFAA определяет случаи, когда неправомочный доступ и использование данных нарушает закон, особенно это касается извлечения данных с целью коммерческой выгоды или получения прибыли. Если ваш парсинг нарушает CFAA, он может быть признан незаконным.
2. Нарушение авторских прав
Если вы не размещаете данные в интернете и не используете для коммерческих целей, вы в безопасности. Парсинг не незаконен, но использование защищенных материалов может быть сочтено нарушение авторских прав.У компаний могут быть данные, защищенные авторскими правами. Использование таких данных в коммерческих целях может принести вам проблемы с законом.
3. Вторжение в закрытое пространство
Пока вы не залезаете в закрытое пространство и и не нарушаете работу сайта, ваша деятельность по большей части законна.Получение данных из закрытых разделов или нарушение работы сайта вашими действиями может вызвать судебные иски.
4. Robots.txt
Пока вы следуете правилам, изложенным в Robots.txt, вы в безопасности. Если файл напрямую запрещает автоматический обход сайта, то вам стоит спросить разрешение владельца сайта на парсинг.Если вы игнорируете правила, то это может повлечь проблемы.
5. Частота сканирования
Если вы используете вменяемую частоту запросов и не вредите сайту, ваш парсинг признается легальным. Вам также следует использовать задержку сканирования, изложенную в Robots.txt. Если такого указания там нет, то стандартным является 1 запрос в 10-15 секунд.Сайт нормально работает с людьми. Если вы переполняете его запросами, то он может потерять производительность или вообще перестать отвечать, а это уже незаконно.
6. API или парсинг
Использование API вместо ботов более чем законно.Если вы получаете данные запрашивая страницы и вредите сайту, то возникает опасность судебных разбирательств.
7. Нарушение условий обслуживания
Если вы следуете правилам, изложенным в ToS, то проблем не предвидится. Если парсинг напрямую в правилах запрещен, то следует запросить разрешение. Нарушение правил является нелегальным. 
8. Слишком частые запросы
Вам следует использовать разумное количество запросов и ограничить параллельное сканирование сайта.Если ваши действия приведут к любым нарушениям работы сервера, обслуживающего сайт, проблемы более чем вероятны.
9. Выход за рамки публичного контента
Пока вы работает с открытыми данными — процесс в безопасности. Если вы не используете их в своих публикациях или для получения выгоды — вы в безопасности.Если вы получаете закрытые данные или, тем более, используете их для достижениях своих бизнес-целей, ваша деятельность становится нелегальной.

1. Закон о компьютерном мошенничестве и злоупотреблениях (Computer Fraud and Abuse Act, CFAA)

Как можно видеть по делу Craiglist, речь шла не столько о самих данных. Скорее о неправомерном доступе и использованию данных.

Именно здесь вступает в силу Закон о компьютерном мошенничестве и злоупотреблениях. Craiglist одержал победу из-за него. В соответствии с этим законом несанкционированное использование данных с веб-страницы может повлечь за собой судебный иск.

Поэтому, парся страницы, необходимо убедиться, что вы не нарушаете этот акт. Парсинг является незаконным, если он нарушает CFAA.

Совет № 1. Не нарушайте нормы, изложенные в CFAA. Избегайте неправомерного доступа и использования данных для коммерческой и финансовой выгоды.

2. Нарушение авторских прав

Авторское право — хорошо известная концепция. Тем не менее, можно спросить, как она связана с парсингом страниц.

При извлечении данные, вы получаете доступ к информации, которая может быть защищена авторским правом.

Так что если вы получите данные и будете использовать их в коммерческих целях, то это может вызвать проблемы с законом.

Можно подумать, что сканируются публичные данные, и в этом нет ничего плохого. Но это правда лишь на уровне извлечения информации. Коммерческое использование этих данных не разрешено в соответствии с законами об авторских правах. Поэтому, если парсинг приводит к нарушениям авторских прав, то он будет считаться незаконным.

Совет № 2. Соблюдайте авторские права, не парсите и не используйте данные, защищенные авторским правом.

3. Вторжение в закрытое пространство

Это звучит менее страшно, чем нарушение CFAA или авторских прав, тем не менее, это также серьезная юридическая проблема.

По сути, вы знаете, что вторжение в чужую собственность является незаконным. Вам не разрешено проникать в чужие дома.

Вход в запрещенное пространство и безответственное поведение на цифровых платформах также не приветствуется.

С точки зрения парсинга не стоит прямо вредить сайту или мешать его функционированию каким-либо образом. При парсинге вы не видите, как он отрицательно влияет на работу сайта и сервера.

Чтобы ускорить обработку данных, ваш бот может делать слишком много запросов и замедлять работу или даже останавливать функционирование сервера. Это может быть квалифицировано как нарушение прав его владельца.

В любом случае, ваш парсинг не должен влиять на сайт и сервер. Если это происходит, возможно возникновение юридических проблем.

Совет № 3. Не ходите в запрещенные разделы и не вторгайтесь в закрытые пространства и данные.

4. Robots.txt

Есть файл, который называется Robots.txt, и который вы должны использовать с самого начала. Этот документ содержит все правила относительно того, как боты должны взаимодействовать с сайтом.

Некоторые сайты полностью запрещают ботов. Если вы будете достаточно осторожны, то получите сообщение о том, что необходимо держаться подальше от такого сайта.

В файле Robots.txt также разъясняется, что сайт считает «хорошим поведением», когда речь идет о доступе, ограниченных страницах и частоте сканирования.

Поэтому если хотите, чтобы ваш парсинг был безопасен с точки зрения закона, придерживайтесь правил, изложенных в Robots.txt. Это четкие указания на то, что можно делать, а что нет. Пока вы будете следовать нормам, содержащимся в нем, вы будете в безопасности и под защитой закона.

Совет № 4. Следуйте нормам Robots.txt и при парсинге уважайте условия, описанные в нем.

5. Частота сканирования

Сила парсинга — она же его и слабость. Преимущество автоматического извлечения информации заключается в скорости, с которой можно получать нужные материалы.

Тем не менее, вот в чем загвоздка. Сайтам не нравится такое агрессивное сканирование и получение данных с большой скоростью.

Вот почему многие сайты задают параметры задержки сканирования, чтобы замедлить работу ботов. Однако многие люди, занимающиеся парсингом данных, настойчиво игнорируют эти указания и своими действиями наносят вред сайтам. Это, в свою очередь, может подвергнуть их серьезным юридическим проблемам.

Совет № 5. Не парсите агрессивно. Придерживайтесь разумной скорости сканирования — 1 запрос в 10-15 секунд. Пока вы будете сканировать с такой частотой, парсинг будет в безопасности.

6. API или парсинг

Извлечение данных без учета легитимности этого процесса может привести к неприятностям.

Вместо этого можно выбрать более безопасный путь. Например, использовать API. Большинство сайтов, с которыми вы сталкиваетесь, уже предлагают своим пользователям API.

Было бы нецелесообразно агрессивно парсить данные при наличии API. Причина в том, что использование API ставит вас в гораздо более выгодную позицию.

Разумное использование API означает юридическую безопасность.

Совет № 6. Большинство сайтов имеют API. Используйте API вместо парсинга везде, где это возможно.

7. Нарушение условий обслуживания (ToS)

Когда дело доходит до парсинга, люди часто переходят границы. Одна из них — Условия обслуживания.

Веб-сайты создают и хранят данные, защищая их от парсеров. В Условиях предоставления услуг обычно достаточно четко указывается, что на сайте есть данные, которые запрещено извлекать и использовать.

Вы можете подумать, что если берете общедоступные данные, то все хорошо, но на самом деле, если условия предоставления услуг запрещают вам их извлекать, вы пересекаете черту.

Парсинг общедоступных данных не является незаконным, но вы можете столкнуться с ситуацией, в которой компания может инициировать действия против вас, если пожелает.

Суть в том, что вы должны соблюдать условия обслуживания или быть готовыми к юридическим последствиям.

Совет № 7. Уважайте условия обслуживания. Если в них четко изложены нормы для парсинга веб-страниц, следуйте их букве и духу.

8. Слишком частые запросы

Мир бизнеса настолько зависит от данных, что компании готовы пойти на все, чтобы получить их. Поскольку время имеет решающее значение, компании хотят получать данные сразу.

В попытке победить конкурентов, они готовы идти на неоправданный риск и быстро сканировать страницы, игнорируя нормы и правила.

Одним из таких нарушений является то, что парсеры излишне часто опрашивают серверы. Люди не обращаются к сайтам с такой скоростью, и они не рассчитаны на такую нагрузку.

Поэтому когда вы слишком часто обращаетесь к серверу, может случиться так, что он выйдет из строя или, по крайней мере, замедлится настолько, что не сможет эффективно отдавать веб-страницы реальным пользователям.

Это даст владельцу сайта право инициировать судебное разбирательство против вас на основании того, что ваши действия нанесли вред ресурсу.

Совет № 8. Поддерживайте временной интервал между двумя запросами. Не будьте слишком агрессивны в своих действиях.

9. Выход за рамки публичного контента

Как умный пользователь интернета, вы должны научиться различать общедоступный контент и закрытые данные.

Сайты хранят некоторую информацию, доступную для общего пользования, и позволяют всем и каждому получать доступ к ней. Однако на сайте есть и некоторые сведения, которые не предназначены для публичного просмотра.

Если сознательно выходить за рамки общедоступного контента и парсить данные, которые не открыты для обычных пользователей, то можно нарваться на  неприятности.

Например, если страница требует входа в систему, это означает, что ее данные не открыты для публичного доступа. Вам необходимо держаться подальше от такой информации, которую вы можете получить только после входа в систему.

Если вы нарушите эту основную норму и направите свои парсеры за пределы общедоступного контента, то можете получить юридические проблемы. Однако, если вы будете придерживаться открытых данных, то будете в безопасности и сможете извлекать данные столько времени, сколько захотите, не беспокоясь о юридических последствиях.

Совет № 9. Доступ только к публичным данным. Не выходите за рамки открытых страниц. Это может привести к нарушению авторских прав и т.д.

Вывод

Вопрос не в том, будете ли вы парсить сайты или не парсить. Автоматическое извлечение данных неизбежно.

Не существует другого быстрого и эффективного способа получения информации, необходимой для принятия решений и развития вашего бизнеса.

Вопрос, однако, заключается в том, как парсить так, чтобы не вызывать юридических проблем. Для этого вам необходимо поддерживать хороший баланс между вашими потребностями и возможностями и нормами сайтов.

Если вы нарушаете какие-либо нормы, установленные владельцем информации, вы можете подвергнуться юридическому преследованию.

С другой стороны, если вы аккуратно извлекаете данные, никоим образом не нанося вреда сайту, вы можете продолжать парсить данные, не беспокоясь о юридических последствиях.

Надеюсь, что эта статья поможет вам избежать юридических проблем и позволит принимать правильные решения.

Парсите, но с уважением к чужой информации!