Wann immer Sie Web Scraping erwähnen, werden Sie garantiert gemischte Reaktionen erhalten.
Manche Leute lieben Web Scraping, andere hassen es.
Die Liebhaber werden zeigen, wie die Nutzung von Webdaten die Welt zu einem besseren und produktiveren Ort machen kann. Die Hasser hingegen werden auf den Schaden hinweisen, den Web Scraping angeblich verursacht.
Unabhängig von Ihrer Meinung zur Web-Scraping-Ethik läuft dieses Argument fast immer auf eine Frage hinaus:
„Ist Web Scraping legal?“
Da hochkarätige Rechtsfälle wie LinkedIn vs. HiQ diese Frage ins Rampenlicht rücken, haben wir beschlossen, diesen Leitfaden zu schreiben, um die Leidenschaft von den Fakten zu trennen und aufzuschlüsseln, wann Web Scraping im Jahr 2022 legal und wann illegal ist.
Haftungsausschluss : Ich bin nicht Ihr Anwalt, und diese Kommentare basieren ausschließlich auf unserer Erfahrung bei der Arbeit mit Tausenden von Kunden, um das Internet zu durchsuchen. Bitte suchen Sie rechtlichen Beistand, wenn Sie Zweifel an Ihrem eigenen Projekt haben.
Inhaltsverzeichnis
Ist Web Scraping legal?
Manche Leute behaupten pauschal, dass Web Scraping legal oder illegal sei. Diese Aussagen basieren oft auf eigenen Anreizen. Seien es die Web-Scraper selbst, die argumentieren, dass Web-Scraping vollkommen legal sei, oder die Unternehmensanwälte und Anti-Bots-Unternehmen, die das Gegenteil argumentieren.
In Wahrheit gibt es keine einfache Ja- oder Nein-Antwort auf diese Frage.
Es hängt wirklich von der jeweiligen Situation und der Web-Scraping-Definition ab, die Sie verwenden. Hier definieren wir Web Scraping einfach als den Prozess des Sammelns von Daten aus dem gesamten Internet. Das Extrahieren von Daten von anderen Websites ist ein nützlicher und wesentlicher Bestandteil vieler legitimer Datenanalysevorgänge. Das Scraping von Webdaten an sich ist nicht illegal, kann aber abhängig von diesen drei Dingen illegal sein (oder sich in einer Grauzone befinden):
- Die Art der Daten, die Sie scrapen
- Wie Sie die gecrackten Daten verwenden möchten
- Wie Sie die Daten von der Website extrahiert haben
Die Nummern 1 und 2 sind eindeutiger, daher beginnen wir hier, bevor wir uns mit Nummer 3 befassen, der kniffligen.
Welche Arten von Daten dürfen nicht gescrapt werden?
Ob es sich um E-Commerce-, Personen- oder Artikeldaten handelt, die Art der Daten, die Sie auswerten, und die Art und Weise, wie Sie sie verwenden möchten, können einen großen Einfluss auf deren Rechtmäßigkeit haben.
Viele wissen nicht, dass der endgültige Anwendungsfall der Daten oft einen erheblichen Einfluss darauf hat, ob das Scrapen legal ist oder nicht.
Manchmal kann es vollkommen legal sein, eine Website zu crawlen, aber die Art und Weise, wie Sie die Daten verwenden möchten, kann sie illegal machen.
Die zwei Arten von Daten, über die wir uns Sorgen machen müssen:
- Persönliche Daten
- Urheberrechtlich geschützte Daten
Wenn die Daten, die Sie extrahieren, mit keinem der oben genannten übereinstimmen, sind Sie im Allgemeinen auf der sicheren Seite.
Datentyp Nr. 1: Persönliche Daten
Personenbezogene Daten oder persönlich identifizierbare Informationen (PII), wie sie in der Fachsprache genannt werden, sind alle Daten, die zur direkten oder indirekten Identifizierung einer bestimmten Person verwendet werden könnten.
Mit der Einführung der DSGVO im Jahr 2018, dem California Consumer Privacy Act und der Empörung, die mit Skandalen wie der Einmischung von Cambridge Analytica in die US-Präsidentschaftswahl 2016 einherging, ist das Thema personenbezogener Daten zu einem heißen Thema geworden, über das sich jeder Web-Scraper im Klaren sein muss .
Jede Rechtsordnung hat unterschiedliche Vorschriften für personenbezogene Daten. Im Allgemeinen ist es jedoch in Rechtsordnungen mit den neuesten Verbraucherschutzgesetzen (EU, Kalifornien usw.) für Unternehmen illegal, personenbezogene Daten einer Person ohne diese zu erhalten, zu speichern und/oder zu verwenden ohne Einwilligung oder ohne dass dafür ein rechtmäßiger Grund vorliegt.
Zu den Arten personenbezogener Daten gehören:
- Name
- Telefonnummer
- Adresse
- Nutzername
- IP Adresse
- Geburtsdatum
- Beschäftigungsinformationen
- Bank- oder Kreditkarteninformationen
- Medizinische Daten
- Biometrische Daten
In den allermeisten Fällen (Lead-Generierung, Verkaufsinformationen usw.) haben Sie beim Scrapen personenbezogener Daten von einer Website nicht die Zustimmung des Dateneigentümers (der Person, deren Daten Sie extrahieren), um deren Daten zu extrahieren, und das ist der Fall Es ist sehr schwer zu argumentieren, dass Sie einen dieser rechtmäßigen Gründe dafür haben:
- Zustimmung – Die betroffene Person hat eingewilligt, dass wir ihre Daten erhalten.
- Vertrag – Die personenbezogenen Daten sind für die Erfüllung eines Vertrages mit der betroffenen Person erforderlich.
- Einhaltung – zur Erfüllung einer rechtlichen Verpflichtung erforderlich sind.
- Lebenswichtiges Interesse, öffentliches Interesse oder offizielle Autorität – In der Regel gilt dies nur für staatliche Stellen, bei denen der Zugriff auf personenbezogene Daten im Interesse der Öffentlichkeit liegt.
- Berechtigtes Interesse – für unsere berechtigten Interessen erforderlich.
Daher kann das Scraping der personenbezogenen Daten eines Bürgers der EU oder Kaliforniens in den meisten Fällen dazu führen, dass Ihr Web-Scraping als illegal gilt.
Wenn Sie keine personenbezogenen Daten extrahieren oder nur die personenbezogenen Daten von Nicht-EU-Bürgern oder kalifornischen Bürgern, können Sie das Scrapen wahrscheinlich bedenkenlos fortsetzen.
Datentyp Nr. 2: Urheberrechtlich geschützte Daten
Der zweite Datentyp, bei dem Sie beim Scraping vorsichtig sein müssen, sind urheberrechtlich geschützte Daten.
Urheberrechtlich geschützte Daten sind Daten im Besitz von Unternehmen und Einzelpersonen, die ausdrücklich die Kontrolle über deren Vervielfältigung und Erfassung haben.
Wie bei der Verwendung von urheberrechtlich geschützten Bildern und Liedern bedeutet die bloße Tatsache, dass die Daten öffentlich im Internet verfügbar sind, nicht, dass es legal ist, sie ohne Zustimmung des Eigentümers zu entfernen. Sie könnten das Urheberrecht des Eigentümers verletzen, indem Sie dessen Daten löschen.
Dies gilt im Allgemeinen für die folgenden Arten von Webdaten:
- Artikel
- Videos
- Bilder
- Geschichten
- Musik
- Datenbanken
Das Scrapen von urheberrechtlich geschützten Daten an sich ist nicht illegal. Es kommt darauf an, was Sie mit den urheberrechtlich geschützten Daten vorhaben, was sie möglicherweise illegal machen könnte.
Eine Person könnte einen urheberrechtlich geschützten Artikel entfernen und dies völlig legal tun, eine andere Person könnte jedoch denselben Artikel entfernen und feststellen, dass sie das Urheberrecht des Eigentümers verletzt hat.
Es hängt wirklich davon ab, wie Sie die Daten nach dem Scrapen verwenden möchten.
- Können Sie eine faire Verwendung argumentieren? Anstatt den Artikel vollständig zu reproduzieren, planen Sie, Ausschnitte des Originalartikels zu verwenden.
- Können Sie argumentieren, dass die Daten sachlich sind und daher nicht urheberrechtlich geschützt sind? Fakten wie Produktnamen, Preise, Funktionen usw. fallen nicht unter das Urheberrecht. Sie können also argumentieren, dass die Daten, die Sie erfassen möchten, sachlicher Natur sind.
Ein schwierigerer Aspekt des Urheberrechts ist jedoch die Frage Datenbankrechte . Eine Datenbank ist eine organisierte Sammlung von Materialien, die es einem Benutzer ermöglicht, nach einzelnen in den Materialien enthaltenen Informationen zu suchen und darauf zuzugreifen.
Das bedeutet, dass es illegal sein kann, eine vollständige Datenbank aus dem Internet zu extrahieren und sie dann genau für Ihre eigenen Zwecke zu reproduzieren.
Auch hier gelten in den USA und der EU unterschiedliche Vorschriften darüber, was eine Datenbank ausmacht und welche rechtlichen Schutzmaßnahmen sie dem Datenbankeigentümer gewähren. Daher ist es wichtig, die Regeln und Vorschriften der Rechtsgebiete zu verstehen, in denen Sie tätig sind.
Das Risiko einer Verletzung der Datenbankrechte einer Person kann durch eine Änderung der Art und Weise, wie die Daten erfasst und verwendet werden, gemindert werden. Mit diesen beiden Tipps können Sie sicherstellen, dass Sie ethisch einwandfreies Data Scraping mit urheberrechtlich geschützten Daten durchführen:
- Scrapen Sie nur einige der verfügbaren Daten.
- Replizieren Sie nicht die Organisationsstruktur der Originaldatenbank.
Okay, bisher haben wir behandelt, welche Arten von Daten beim Scrapen illegal sein können, und haben gesehen, wie sich Ihre geplante Verwendung der gescrapten Daten auf deren Rechtmäßigkeit auswirken kann.
Als Nächstes beantworten wir die umstrittenste Frage zur Rechtmäßigkeit von Web Scraping: wie Sie die Daten von der Website extrahieren .
Ist Web Scraping selbst illegal?
Es lässt sich ziemlich einfach feststellen, ob das Scraping persönlicher oder urheberrechtlich geschützter Daten Ihr Web-Scraping illegal macht, da es klare Gesetze gibt, die festlegen, was legal und was illegal ist.
Noch schwieriger wird es, wenn es um das Web Scraping selbst geht, da keine Regierung ein Gesetz verabschiedet hat, das Web Scraping ausdrücklich legalisiert oder delegalisiert. Stattdessen müssen wir uns von den Gerichtsurteilen zwischen Web-Scrapern und Website-Eigentümern abwenden. Davon gibt es viele:
Um ein paar zu nennen.
Die Hauptfrage in all diesen Fällen ist die Frage, ob die auf vielen Websites aufgeführten Nutzungsbedingungen, die Web Scraping (oder automatischen Zugriff) verbieten, rechtlich durchsetzbar sind. Bei Websites, die Web Scraping zulassen, gibt es natürlich keine Probleme.
Obwohl Fälle zum Thema Web Scraping in beide Richtungen gehen, beginnen die Gerichte ab 2021 mit der Klärung der Rechtmäßigkeit des Daten Scrapings für Web Scraper.
Die jüngste Studie, HiQ vs. LinkedIn, stellte fest, dass das Scrapen von Daten von einer Website nicht gegen Anti-Hacking-Gesetze verstößt, solange die Daten öffentlich sind und der Scraper den Geschäftsbedingungen der Website nicht im Voraus ausdrücklich zugestimmt hat.
Dies bedeutet, dass der Web Scraper das Recht hat, die öffentlich zugänglichen Daten zu crawlen, solange die Daten auf einer Website öffentlich verfügbar sind und es nicht erforderlich ist, dass sich der Web Scraper anmeldet und die Nutzungsbedingungen der Website ausdrücklich akzeptiert Daten.
Wie wirkt sich das auf Web-Scraper aus?
Wenn Sie eine Website crawlen, müssen Sie die folgenden Fragen stellen, um festzustellen, ob dies legal ist oder nicht:
- Sind die Daten öffentlich verfügbar? Wenn die Daten nicht hinter einem Login verborgen sind, sind die Allgemeinen Geschäftsbedingungen der Website nicht durchsetzbar, sodass Sie die öffentlichen Daten legal auslesen können.
- Müssen Sie ein Konto erstellen und sich anmelden, um auf die Daten zuzugreifen? Wenn dies der Fall ist, müssen Sie die Allgemeinen Geschäftsbedingungen prüfen, denen Sie bei der Erstellung des Kontos zugestimmt haben, da Sie durch Ihre Zustimmung diese rechtlich durchsetzbar gemacht haben.
Viele Websites schreiben in ihren Allgemeinen Geschäftsbedingungen (denen Sie zustimmen, wenn Sie ein Konto auf ihrer Website erstellen) vor, dass sie Ihnen das Scrapen von Inhalten von ihrer Website verbieten. Als Faustregel sollten Sie also immer davon ausgehen, dass das Einloggen auf einer Website und das Scraping illegal sind, es sei denn, Sie haben deren AGB gelesen.
Aus diesem Grund verbieten wir bei ScraperAPI unseren Benutzern, Daten hinter dem Login zu extrahieren.
Ihr eigener legaler Web-Scraping-Sanity-Check
Also los, wir haben alle wichtigen Fragen besprochen, die die Rechtmäßigkeit Ihres Web Scrapings bestimmen. In den meisten Fällen sehen wir, dass das, was Unternehmen abschaffen wollen, völlig legal ist.
Wir raten ihnen jedoch immer, ihre Pläne noch einmal zu überprüfen, um sicherzustellen, dass sie sowohl legales als auch ethisches Web Scraping durchführen, indem sie diese drei einfachen Überprüfungen durchführen:
- Scrape ich persönliche Daten?
- Scrape ich urheberrechtlich geschützte Daten?
- Entferne ich Daten hinter einem Login?
Wenn Sie alle drei dieser Fragen mit „Nein“ beantworten, ist Ihr Web Scraping legal.
Wenn Sie jedoch eine dieser Fragen mit „Ja“ beantworten, sollten Sie einen Schritt zurücktreten und eine vollständige rechtliche Überprüfung Ihres Web-Scrapings durchführen, um sicherzustellen, dass Sie das Web nicht illegal crawlen.