Seit der Erfindung des World Wide Web ist Web Scraping einer seiner wichtigsten Aspekte. Auf diese Weise können Suchmaschinen sofort Hunderttausende Ergebnisse sammeln und anzeigen, und auf diese Weise können Unternehmen Datenbanken aufbauen, Marketingstrategien entwickeln, Leads generieren und so weiter.
Obwohl das Potenzial enorm ist, gibt es auch Bedenken hinsichtlich der Rechtmäßigkeit von Web Scraping. Dank einiger aufsehenerregender Fälle (auf die wir später in diesem Artikel eingehen werden) und einiger häufiger Probleme: „Ist Web Scraping legal?“ ist eine der am häufigsten gestellten Fragen. Die Antwort? Nun, es kommt darauf an – auf jeden Anwendungsfall.
Für SaaS- und Daas-Anbieter sowie datengesteuerte Unternehmen gleichermaßen ist es wichtig, ein klares Verständnis aller Aspekte des Web Scraping zu haben. In diesem Beitrag schauen wir uns das an legaler Aspekt und versuchen, Ihnen einen Überblick über Folgendes zu geben:
Inhaltsverzeichnis
Häufige Missverständnisse
Die allgemeine Überzeugung ist, dass alles, was Sie online sehen, kostenlos gelöscht und wiederverwendet werden kann. Dies ist wahrscheinlich das größte Missverständnis in Bezug auf Web Scraping und könnte jede Einzelperson oder jedes Unternehmen in rechtliche Schwierigkeiten bringen.
Die Frage der Legalität von Web Scraping ist nicht so schwarz und weiß, wie man annehmen könnte – es gibt auch eine ethische Seite, die man kennen und kennen muss. Zu wissen, welche Art von Daten legal, illegal oder irgendwo dazwischen sind, hilft Ihnen bei der Entscheidungsfindung und hilft Ihnen, unbeabsichtigte und unnötige Konsequenzen zu vermeiden.
Dinge, die man beachten muss
Es gibt einige Dinge, die man vor und nach dem Scrapen von Daten beachten muss.
Arten von Daten
In den meisten Fällen ist die Grad der Leichtigkeit Womit Webdaten zugänglich sind, bestimmt mehr oder weniger, wo die Daten im Legalitätsspektrum liegen.
Öffentliche Daten
Das Scrapen von Daten von öffentlichen Websites ist völlig legal. Dabei handelt es sich um Daten und Informationen auf Websites, die ohne Anmeldung oder Authentifizierung erhoben werden. Einige Beispiele für solche Websites sind E-Commerce-Plattformen wie Amazon und BestBuy.
Obwohl diese Datenquellen möglicherweise versuchen, die öffentlichen Informationen zu schützen, indem sie Scrapern und Crawlern verschiedene Hindernisse in den Weg stellen, ist es absolut in Ordnung, Datenpunkte aus ihnen zu extrahieren.
Private oder persönliche Daten
Alle Daten, die die Identität einer Person offenbaren können, wie z. B. Name, Adresse, Geburtsdatum, medizinische und finanzielle Daten sowie Kontaktinformationen, werden als persönlich identifizierbare Informationen oder PII bezeichnet.
Im Allgemeinen ist es illegal, personenbezogene Daten ohne die Zustimmung der Person oder ohne rechtliche Grundlage zu entfernen. In der EU und in Kalifornien gelten diesbezüglich derzeit die strengsten Gesetze.
Urheberrechtlich geschützte Daten
Es ist illegal, öffentlich zugängliche Daten wie Bilder, Lieder, Artikel usw. zu entfernen, die geistiges Eigentum eines Unternehmens oder einer Einzelperson sind. Da ihre Besitzer die volle Kontrolle über ihre Verwendung und Reproduktion haben, benötigen Scraper für die Extraktion eine ausdrückliche Zustimmung. Um dieses Problem zu umgehen, können Sie Auszüge aus den Daten verwenden oder die Quellen angeben und angeben, die die Daten verwendet haben.
Website-Nutzungsbedingungen (ToS)
Bevor man eine Website nach ihren Daten durchsucht, muss man sich darüber im Klaren sein, welche Richtlinien für den Zugriff auf ihre Daten gelten. Wenn sie explizit irgendwelche Scraping-Einschränkungen enthalten, ist davon auszugehen, dass Scraping einen Verstoß gegen ihre Nutzungsbedingungen darstellen würde. Auch wenn es keine derartigen Richtlinien gibt, sollte man sich darüber im Klaren sein, dass deren Inhalte möglicherweise dennoch urheberrechtlich geschützt sind.
Hinter einem Abonnement oder Login kratzen
Dienste wie LinkedIn erfordern, dass Benutzer über ein Konto verfügen, bevor Daten sichtbar sind. Wenn Sie sich bei diesen Diensten anmelden, stimmen Sie fast immer deren Bedingungen zu, die das Scrapen ihrer Daten verbieten.
Da Scraper-Bots und Crawler Ihre Kontoanmeldeinformationen verwenden, um Zugriff auf die Daten zu erhalten, kann der Dienstanbieter Sie leicht identifizieren und Sie vollständig von seiner Plattform verbannen. Daher wird empfohlen, von dieser Option Abstand zu nehmen und stattdessen zu versuchen, öffentlich verfügbare Daten zu finden.
Aktuelle Gesetzgebungen
Da es derzeit keine klaren Gesetze gibt, die die Rechtmäßigkeit oder das Gegenteil von Web Scraping regeln, werden Klagen von Fall zu Fall behandelt. Allerdings ist die Datenschutz-Grundverordnung (DSGVO) und das US-Datenschutzgesetz werden in den meisten Fällen in Europa bzw. den USA genannt.
DSGVO
Die DSGVO trat im Mai 2018 in Kraft und schützt die personenbezogenen Daten von Personen innerhalb des Europäischen Wirtschaftsraums (EWR). Einige Beispiele für personenbezogene Daten sind Namen, E-Mail-Adressen, Telefonnummern, Geburtsdaten, IP-Adressen, Kreditkarten- und Bankdaten, Krankenakten und Multimedia-Inhalte wie Fotos, Audio- und Videodaten.
Die DSGVO stuft den Schutz personenbezogener Daten als „Grundrecht“ ein. Daher ist die Verarbeitung personenbezogener Daten verboten, es sei denn, sie erfolgt auf der Grundlage einer von sechs Rechtsgrundlagen – Einwilligung, Vertrag, öffentliche Aufgabe, lebenswichtiges Interesse, berechtigtes Interesse oder gesetzliche Anforderung. Wenn die Verarbeitung auf einer Einwilligung beruht, hat die betroffene Person das Recht, diese jederzeit zu widerrufen.
Darüber hinaus müssen die Datenverantwortlichen jede Datenerhebung klar offenlegen, die Rechtsgrundlage und den Zweck angeben und angeben, wie lange die Daten aufbewahrt werden und ob sie an Dritte oder außerhalb des EWR weitergegeben werden dürfen.
US-Datenschutzgesetz
Während es in den USA keine einzige Bundesverordnung gibt, die den Datenschutz und den Datenschutz wie in der EU regelt, gibt es mehrere branchenspezifische Rechtsakte, wie z GLBA für Finanzen, HIPAA für das Gesundheitswesen und COPPA für Kinderdaten.
Im Jahr 2020 verabschiedete Kalifornien jedoch ein staatliches Gesetz – das Kalifornisches Verbraucherschutzgesetz (CCPA) – das Unternehmen, die personenbezogene Daten erheben, dazu verpflichtet, ausdrücklich offenzulegen, wie sie diese Daten verwenden wollen, und es Verbrauchern außerdem ermöglicht, ihre Daten zu entfernen oder der Datenerfassung zu widersprechen. Die gleichen Regeln gelten auch für Daten-Scraping-Unternehmen.
Vergleich
Sowohl die DSGVO als auch der CCPA ermöglichen es Verbrauchern, auf ihre personenbezogenen Daten zuzugreifen und diese zu löschen sowie sich jederzeit ganz davon abzumelden. Allerdings können Nutzer ihre Daten im Rahmen der DSGVO bearbeiten, nicht jedoch im Rahmen des CCPA. Ebenso fordert der CCPA nur Datenschutzhinweise auf Websites, während die DSGVO eine ausdrückliche Zustimmung des Benutzers erfordert.
Häufige rechtliche Probleme
Im Folgenden sind einige der am häufigsten auftretenden Verstöße und Probleme im Zusammenhang mit Web Scraping aufgeführt.
Copyright-Verletzung
Wie oben erwähnt, kann das Scrapen von öffentlich zugänglichen Daten zwar legal sein, es kann jedoch bestimmte Einschränkungen und rechtliche Konsequenzen geben, wenn die Daten urheberrechtlich geschützt sind. Eine Veröffentlichung oder Nutzung dieser Daten zu kommerziellen Zwecken ist unter Wahrung der rechtlichen Rahmenbedingungen nicht gestattet.
Jede Verletzung urheberrechtlich geschützter Daten ist strafbar, unabhängig davon, wie Sie auf die Daten zugreifen und diese sammeln.
Verstoß gegen das Computer Fraud and Abuse Act
Die CFAA wurde 1984 verabschiedet, um jeglichen unbefugten Zugriff auf Computer und Netzwerke zu verbieten. Ursprünglich zum Schutz militärischer, finanzieller und anderer sensibler Daten konzipiert, wurde es auf alle privaten Informationen ausgeweitet.
Die CFAA gilt nicht für Webcrawler und Scraping-Techniken, die nur auf öffentlich verfügbare Informationen zugreifen.
Unbefugter Eingriff in bewegliche Sachen
Ein Eingriff in die Privatsphäre (oder die Sicherheit der Website) liegt vor, wenn eine Website oder ihre Server in irgendeiner Weise verletzt oder beschädigt werden. Im Zusammenhang mit Web Scraping kann ein Crawler, der wiederholt Anfragen sendet, die Leistung der Zielwebsite beeinträchtigen, indem er deren Server abstürzt oder verlangsamt.
Aus rechtlicher Sicht könnten die Websitebesitzer die häufigen Anfragen als vorsätzlichen Angriff auf ihr System betrachten. Daher ist es für DaaS-Anbieter wichtig und moralisch verantwortlich, Scraper zu entwickeln, die der Zielwebsite keinen Schaden zufügen.
Aufsehen erregende Fälle
Wie bereits erwähnt, gibt es einige historische Fälle, die bei Web-Scraping-Klagen rechtlichen Vorrang haben.
eBay gegen Bidder’s Edge (1999)
Bidder’s Edge, eine Website, die Auktionsangebote sammelt, sendete täglich 100.000 Anfragen an die Server von eBay, um auf die laufenden Auktionen zuzugreifen, was zu Schäden an den Systemen von eBay führte. Ende 1999 reichte eBay eine einstweilige Verfügung gegen Bidder’s Edge ein, in der es einen Verstoß gegen das „Trespass to Chattels“-Gesetz geltend machte.
Obwohl beide Parteien den Fall später außergerichtlich für einen nicht genannten Betrag beilegten, wurde damit ein rechtlicher Präzedenzfall für künftige Fälle geschaffen.
HiQ Labs vs. LinkedIn (2019)
Dieser historische Fall begann, als hiQ Labs, ein Datenanalyseunternehmen, LinkedIn verklagte, weil es ihm verboten hatte, öffentliche Profile auf LinkedIn zu löschen. HiQ Labs nutzte die Daten, um Arbeitgeber zu Bewerbern zu befragen.
Im Jahr 2019 entschied das Berufungsgericht des Neunten Bezirks, dass die CFAA nicht anwendbar sei, da die Daten öffentlich zugänglich und nicht urheberrechtlich geschützt seien. Infolgedessen konnte LinkedIn hiQ Labs nicht daran hindern, auf seine öffentlichen Profile zuzugreifen. Allerdings wurde der Zugriff auf die Benutzerprofile nur nach der Anmeldung eingeschränkt.
Es ist erwähnenswert, dass der Fall noch lange nicht abgeschlossen ist, da LinkedIn die Angelegenheit weiterhin vor dem Obersten Gerichtshof der USA verfolgt.
Update (April 2022): In seinem zweiten Urteil vom 18. April 2022 bekräftigte der Neunte Bezirk seine ursprüngliche Entscheidung und stellte fest, dass das Scrapen von Daten, die im Internet öffentlich zugänglich sind, keinen Verstoß gegen den Computer Fraud and Abuse Act (CFAA) darstellt, der regelt, was Computer-Hacking darstellt nach US-amerikanischem Recht. (über TechCrunch)
Update (Dezember 2022): Am 6. Dezember 2022 erzielten hiQ Labs und LinkedIn eine vertrauliche Vergleichsvereinbarung und beendeten damit ihren langjährigen Rechtsstreit.
Zusammenfassung
Da die Frage des Web Scraping nicht schwarz oder weiß ist, müssen Sie jeden Anwendungsfall gründlich analysieren, um unbeabsichtigte Folgen zu vermeiden. Sie müssen bestehende Gesetze, die Art der erfassten Daten, die Bedingungen und Richtlinien der Datenquellen sowie die ethische Verwendung nach der Extraktion berücksichtigen.
Hier bei Grepsr nehmen wir unsere Web-Scraping-Verantwortung äußerst ernst und halten uns vor, während und nach der Durchführung eines Datenerfassungsprojekts an alle rechtlichen Rahmenbedingungen. Wir befolgen außerdem die besten ethischen Praktiken, um eine Beeinträchtigung der Leistung unserer Zielwebsites zu vermeiden und gleichzeitig allen unseren Kunden weiterhin die genauesten und zuverlässigsten Daten zu liefern.