Wenn Sie mit Web Scraping zu tun haben, haben Sie sich vielleicht gefragt, ob diese Art der Datenerfassung legal ist. Wenn ich es mir recht überlege, sind Daten im Moment das größte Kapital eines jeden Unternehmens. Es wird erwartet, dass der Markt für Datenanalyse mit einer CAGR von 30,41% wächst, von 41,39 Milliarden USD im Jahr 2022 auf 346,33 Milliarden USD im Jahr 2030.
Web Scraper haben den elektronischen Handel und die Art und Weise, wie Unternehmen auf Daten und Informationen zugreifen, revolutioniert. In der Vergangenheit waren die Sammlung von Daten, die Marktforschung, die Produktentwicklung und die Bewertung von Investitionsmöglichkeiten unglaublich arbeitsintensiv - mit manuellen Abfragen verschiedener Quellen. Mit Web Scrapers können Unternehmen diesen Prozess jedoch drastisch vereinfachen, indem sie ihn automatisieren. Die Roboter durchforsten unzählige Websites in einem Bruchteil der Zeit, die Menschen dafür benötigen würden. Dieses effizientere Modell ermöglicht es Unternehmen, größere Datenmengen mit einer größeren Vielfalt zu analysieren, um bessere Einblicke in ihre Branchentrends zu erhalten als je zuvor.
In der Datenwissenschaft ist Web Scraping ein unschätzbares Werkzeug für maschinelle Lernprojekte. Durch Scraping von Online-Inhalten können maschinelle Lernprogramme Trainings- und Testdaten sammeln, um Vorhersageanalysen durchzuführen und natürliche Sprache zu verarbeiten. Web Scraping bietet Datenwissenschaftlern Zugang zu Big Data und ermöglicht es ihnen, Machine-Learning-Modelle besser zu verstehen, indem sie Muster und Trends in maschinengenerierten Daten aufdecken, um leistungsstarke Machine-Learning-Programme zu erstellen. Mit diesen Informationen können Datenwissenschaftler die Ergebnisse von maschinellen Lernsystemen verstehen und sie verbessern, indem sie sie genauer und effizienter machen.
Aber es gibt jetzt rechtliche Probleme im Zusammenhang mit Web Scraping, denn einige Unternehmen wollen nicht, dass ihre Daten gesammelt werden. Die Firmeninhaber sorgen sich um Dinge wie Urheberrechtsverletzungen, Betrug und so weiter.
Um diesem Problem auf den Grund zu gehen, haben wir einen Artikel mit Erklärungen für Sie vorbereitet.
Inhaltsübersicht
Ist Web Scraping legal?
Kurz und bündig: Ja. Das Sammeln öffentlich zugänglicher Informationen im Internet ist legal, solange die gesammelten Daten nicht für schädliche Zwecke verwendet werden und dem Unternehmen keinen Schaden zufügen. Dennoch ist Web Scraping nur ein Werkzeug, um zu automatisieren, was eine Person manuell tun kann. Das Tool selbst kann weder legal noch illegal sein, aber die Verwendung des Tools schon.
Probleme entstehen, wenn Leute die Nutzungsbedingungen (Terms of Service, ToS) ignorieren und ohne die Erlaubnis des Website-Eigentümers scrapen. Obwohl es für Web Scraping keine eindeutigen Gesetze oder Bedingungen für seine Anwendung gibt, ist es durch viele gesetzliche Bestimmungen abgedeckt. Zum Beispiel:
Aber trotz all dieser Gesetze ist es am besten, die Haftung abzulehnen, wenn es sich bei den gescrapten Daten um persönliche Informationen handelt.
Scraping persönlicher Daten
Personenbezogene Daten sind alle Informationen, die sich auf eine identifizierte oder identifizierbare Person beziehen. Fragmente von Informationen, die in ihrer Gesamtheit zur Identifizierung einer Person führen können, sind ebenfalls personenbezogene Daten.
Personenbezogene Daten können offizielle Daten über eine Person umfassen, wie z.B.:
Die Erhebung und Verwendung personenbezogener Daten muss bestimmte rechtliche Kriterien erfüllen. Die Verwendung der Daten muss rechtmäßig sein, und es muss eine Rechtsgrundlage dafür geben. Wenn Sie sich darüber im Klaren sind, dass Web Scraping personenbezogene Daten beinhaltet, müssen Sie sorgfältig darüber nachdenken, wie Sie diese rechtlichen Grundsätze einhalten. Aber wir werden etwas später über die Gesetze sprechen.
Öffentlich zugängliche persönliche Daten
Es scheint klar zu sein, dass die Veröffentlichung von Daten im Internet voraussetzt, dass der Eigentümer bereit ist, allen Nutzern die Erlaubnis zum Zugriff auf diese Informationen zu erteilen. Aber es ist ein Irrtum zu glauben, dass nur private persönliche Daten geschützt sind und dass Sie persönliche Informationen aus öffentlich zugänglichen Quellen sammeln können.
Im Rahmen der General Data Protection Regulation (GDPR) sind alle personenbezogenen Daten geschützt, und es spielt keine Rolle, woher sie stammen. Unter dem CCPA werden die von der Regierung bereitgestellten Informationen, wie z.B. Geschäftsdaten, als öffentlich angesehen und sind daher nicht geschützt.
Der California's Privacy Rights Act (CPRA) wird 2023 in Kraft treten und die Definition des CCPA für öffentlich zugängliche Informationen erweitern. So werden zum Beispiel Daten, die zuvor von einer Person veröffentlicht wurden, nicht mehr geschützt sein, was im Wesentlichen das Auslesen von persönlichen Daten ermöglicht. Aber nur in Kalifornien.
Kopieren von urheberrechtlich geschützten Inhalten
Im Allgemeinen dürfen Sie keine urheberrechtlich geschützten Inhalte ohne Erlaubnis oder Lizenz kopieren. Urheberrechtlich geschützte Daten können Musik, Nachrichten, wissenschaftliche Arbeiten, Filme, Bilder und Fotos, Datenbanken und Logos sein.
Allerdings können nicht alle Informationen im Internet dem Urheberrecht zugerechnet werden. Das Urheberrecht erstreckt sich zum Beispiel nicht auf Produktnamen, Produktbeschreibungen, Preisangaben und Verkaufszahlen. Sie können unseren Amazon Produkt Scraper also bedenkenlos verwenden.
Die U.S. Fair-Use-Doktrin erlaubt Scrapern den Zugriff auf urheberrechtlich geschützte Inhalte. Um als Fair Use zu gelten, müssen die extrahierten Daten die folgenden Kriterien erfüllen:
-
der Inhalt muss gegenüber dem ursprünglichen Inhalt wesentlich verändert sein
-
der Inhalt darf nur für Forschungs- oder Marketingzwecke verwendet und nicht als geschützter Inhalt wiederveröffentlicht werden
Was sagen die Gesetze über die Legalität von Web Scraping?
Die GDPR und CCPA sehen harte Strafen für die illegale Erhebung personenbezogener Daten vor.
GDPR
Die GDPR ist eine Verordnung, die als Grundlage für Gesetze auf dem gesamten Kontinent dient und die frühere Datenschutzrichtlinie von 1995 ersetzt.
Die DSGVO ist 2018 in Kraft getreten und gilt für den Umgang mit persönlichen Informationen und den Datenschutz in allen EU-Mitgliedstaaten. Die GDPR wurde auch geschaffen, um zu ändern, wie Unternehmen und andere Organisationen mit den Informationen derjenigen umgehen können, die mit ihnen interagieren.
Es gibt auch einige besondere Kategorien sensibler personenbezogener Daten, die durch die Datenschutz-Grundverordnung stärker geschützt werden. Zum Beispiel Informationen über die rassische oder ethnische Herkunft, politische Ansichten, religiöse Überzeugungen, Gewerkschaftszugehörigkeit, genetische und biometrische Daten, Gesundheitsinformationen und Orientierung.
Alle Unternehmen, unabhängig von ihrem Standort, müssen die GDPR einhalten, wenn sie Daten von in der EU ansässigen Personen erfassen.
Die U.S.-Gesetze
In den USA gibt es zahlreiche Datenschutzgesetze in verschiedenen Bundesstaaten.
Der Zweck des Privacy Act besteht beispielsweise darin, ein Gleichgewicht zwischen der Notwendigkeit der Regierung, Informationen über Menschen zu speichern, und dem Recht der Menschen auf Schutz vor ungerechtfertigten Eingriffen in ihre Privatsphäre, die sich aus der Erhebung, Speicherung, Verwendung und Weitergabe persönlicher Daten ergeben, herzustellen.
Der California Consumer Privacy Act (CCPA) ist das Gesetz, das regelt, wie Unternehmen auf der ganzen Welt mit den persönlichen Daten der Einwohner Kaliforniens umgehen dürfen. Der Gouverneur von Kalifornien hat das Gesetz am 28. Juni 2018 unterzeichnet.
Das CCPA gibt den Einwohnern Kaliforniens die Kontrolle über ihre persönlichen Daten und das Recht zu erfahren, welche persönlichen Daten über einen Einwohner gesammelt werden, ob die Daten verkauft oder weitergegeben werden und das Recht, auf die Daten zuzugreifen und deren Verkauf abzulehnen.
Es gibt auch andere Bundesgesetze, wie zum Beispiel:
Bemerkenswerte Rechtsfälle im Bereich Web Scraping
HiQ Labs vs. LinkedIn
LinkedIn ist in einen Streit mit dem Datenanalyseunternehmen HiQ Labs geraten. LinkedIn hat ein offizielles Schreiben verschickt, in dem das Unternehmen aufgefordert wird, alle Scraping-Aktivitäten einzustellen. In dem Schreiben wurde auch erwähnt, dass LinkedIn den Zugang von HiQ Labs zu öffentlichen Profilen gesperrt hat. Daraufhin verklagte HiQ Labs das Unternehmen mit der Begründung, dass das Scraping öffentlicher Daten nicht illegal sei.
-
Im Jahr 2019 entschied der U.S. Ninth Circuit zu Gunsten von HiQ und stellte fest, dass das Sammeln von öffentlich zugänglichen Daten keine Verletzung des CCFA darstellt.
-
Im Juni 2020 gab der Supreme Court der Petition von LinkedIn auf Certiorari statt und verwies den Fall zur weiteren Bearbeitung an den Ninth Circuit zurück.
-
Am 18. April 2022 bestätigte der Neunte Bundesberufungsgerichtshof, dass das Scraping öffentlicher Daten keinen Verstoß gegen den CFAA darstellt.
Facebook vs. Power Ventures
Der Konflikt begann 2009, als Facebook Power Ventures verklagte, weil das Unternehmen Kundendaten extrahiert und auf seiner Website veröffentlicht hatte. Facebook behauptete, dass diese Aktionen zu Verstößen gegen den CAN-SPAM Act, CFAA, DMCA, UCL und Urheberrechtsverletzungen führten.
Das Gericht ließ nur drei Klagen - wegen Verstößen gegen den CAN-SPAM Act, den CFAA und das kalifornische Strafgesetzbuch - für eine endgültige Entscheidung übrig. Am Ende fiel die Entscheidung zu Gunsten von Facebook aus und das Gericht wies Power Ventures an, Facebook den Betrag von $79.640,50 zu zahlen.
Fall eBay vs. Bidder's Edge
Der Konflikt zwischen Ebay und Bidder's Edge ist ein weiterer Beweis dafür, warum eine respektvolle Datenextraktion ernst genommen werden sollte.
Im April 1999 erlaubte eBay Bidder's Edge, seine Website 90 Tage lang zu betrachten. Während dieses Zeitraums versuchten die Parteien, eine formelle Lizenzvereinbarung auszuhandeln, was ihnen jedoch nicht gelang. Nach erfolglosen Verhandlungen forderte eBay Bidder's Edge auf, das Crawlen seiner Website einzustellen, und BE kam dem nach. Doch danach setzte BE das Scannen der Website fort und crawlte weiterhin die Daten von eBay.
-
eBay beantragte eine einstweilige Verfügung, mit der BE untersagt werden sollte, den Software-Roboter weiterhin ohne Erlaubnis zum Crawlen der Website zu verwenden.
-
Das Gericht befand, dass eBay die Möglichkeit eines nicht wieder gutzumachenden Schadens bewiesen hatte und dass die Aktivitäten von BE unberechtigt waren.
-
Infolgedessen kam das Gericht zu dem Schluss, dass eBay den für die Klage wegen Hausfriedensbruch erforderlichen Schaden nachgewiesen hatte.
Ryanair vs. PR Aviation
Im Jahr 2018 gab der Rechtsstreit zwischen Ryanair und PR Aviation Aufschluss darüber, wie Scraping vor europäischen Gerichten ausgelegt werden kann. Auf der Website von Ryanair unterliegen die Besucher den Allgemeinen Geschäftsbedingungen, die die Datenerhebung ausdrücklich untersagen. PR Aviation verklagte Ryanair in den Niederlanden wegen Vertragsbruchs.
Das Gericht entschied, dass es keine geistigen Eigentumsrechte an den gesammelten Informationen, nämlich der Ryanair-Datenbank mit Flugzeiten und Preisen, gibt. Daher hat das Unternehmen, das die Webdaten abgerufen hat, nicht das geistige Eigentum von Ryanair verletzt. Und das alles nur, weil die Datenbank nicht das Ergebnis der für den Urheberrechtsschutz erforderlichen kreativen Leistung war.
Wie man Websites legal scrapen kann
Um legal Daten zu sammeln, müssen Sie mehr tun, als nur das Gesetz zu befolgen. Es gibt verschiedene Arten von Vereinbarungen und Richtlinien, die Sie ebenfalls befolgen sollten, wenn Sie Informationen online sammeln.
Nutzungsbedingungen
Die Nutzungsbedingungen (Terms of Use, TOU) sind eine vertragliche Vereinbarung zwischen einem Dienstanbieter und dem Nutzer, in der festgelegt ist, wie er sich bei der Nutzung der Website oder des Dienstes zu verhalten hat. Es ist wichtig, dass Websites die Verpflichtungen zwischen Nutzern und ihren Handlungen, Konten, Produkten und Technologien klären, da dies zum Schutz aller auf der Website gespeicherten persönlichen Daten beiträgt.
Vereinbarungen können auch browsewrap und clickwrap sein.
Browsewrap Vereinbarungen werden erstellt, wenn Sie eine Website besuchen. Manchmal erscheinen sie unauffällig am unteren Rand des Bildschirms oder in einem Dropdown-Menü. In diesen Fällen sind sie normalerweise nicht rechtsverbindlich.
Clickwrap Vereinbarungen den Benutzer auffordern, ein Kästchen anzukreuzen oder eine Schaltfläche anzuklicken. Unter der Schaltfläche oder dem Kontrollkästchen befindet sich eine schriftliche Zustimmung zu den Allgemeinen Geschäftsbedingungen der Website. Sobald Sie zustimmen, werden die Allgemeinen Geschäftsbedingungen rechtsverbindlich.
Robots.txt Datei
Heute ist die robots.txt ein wichtiges Werkzeug für Website-Besitzer und -Entwickler. Sie dient als Kommunikationsbrücke zwischen Menschen und hochentwickelten Computerprogrammen wie Webcrawlern oder Suchmaschinen-Bots. Robots.txt weist Web-Crawler an, wie sie mit Websites interagieren sollen, und ermöglicht ihnen tiefe Einblicke in die Struktur von Inhalten, wie z.B. die Hierarchie von Webseiten und die Arten von Dateiformaten.
Die Regeln in der Datei Robots.txt müssen sorgfältig befolgt und auf legitimes Web Scraping überprüft werden. Wenn jedoch die Nutzungsbedingungen oder die Robots.txt-Datei das Scraping von Inhalten ausdrücklich verbieten, sollten Sie vor dem Sammeln von Daten die Erlaubnis des Website-Eigentümers einholen.
Datenschutzbestimmungen
Diese Datenschutzrichtlinie ist das Dokument, in dem die Regeln für die Erfassung und Verarbeitung der persönlichen Daten der Benutzer auf der Website festgelegt sind. Am besten lesen Sie die Datenschutzrichtlinie, bevor Sie die Website nutzen oder sich registrieren, da sie erklärt, welche Daten die Website sammelt, warum sie sie sammelt und wie sie verwendet werden.
Vereinbarung zur Datennutzung
Eine Datennutzungsvereinbarung (DUA) ist ein Dokument, das in der Datenschutzrichtlinie vorgeschrieben ist. Es wird für die Übertragung von Daten verwendet, die von gemeinnützigen, staatlichen oder privaten Organisationen entwickelt wurden, wenn die Daten nicht öffentlich zugänglich sind oder Nutzungsbeschränkungen unterliegen.
Ethik des Web Scraping
Manche Dinge kann man ethisch oder unethisch tun. Und Web Scraping ist eines dieser Dinge. Je nachdem, in welcher Phase des Scraping-Prozesses Sie sich befinden, zeigt sich die Ethik der automatischen Datenerfassung auf unterschiedliche Weise.
Ohne die Festlegung ethischer Standards für Web Scraping kann es schwierig sein, zwischen böswilligen Web Scrapern, die auf Plagiate oder Profit aus sind, und denjenigen zu unterscheiden, die Daten nutzen, ohne gegen das Gesetz zu verstoßen, innovativ zu sein und den Markt zu analysieren.
Aus ethischer Sicht ist gegen den Einsatz von Web Scraping für geschäftliche Zwecke nichts einzuwenden, zumal es bereits zahlreiche Anwendungen und professionelle Anbieter auf dem Markt gibt. Es gibt jedoch Regeln, die Sie befolgen müssen, wenn Sie Daten auf ethische Weise sammeln wollen.
In der Tat bieten Web Scraper eine wichtige Lösung für Benutzer, die Daten von Websites und Diensten benötigen, die keine API zur Verfügung haben.
Best Practices für Web Scraping
Web Scraping ist ein unglaublich nützliches Werkzeug für die Datenerfassung und -analyse, aber es muss verantwortungsbewusst eingesetzt werden. Es ist wichtig, sich daran zu erinnern, dass das Internet eine gemeinsame Ressource ist, und es liegt im Interesse aller, sie respektvoll zu nutzen. Die folgenden Best Practices helfen Ihnen, sicherzustellen, dass Ihre Web-Scraping-Aktivitäten ethisch vertretbar und gesetzeskonform sind.
Überfrachten Sie die Ziel-Website nicht
Beim Scrapen von Daten von einer Website ist es wichtig, schrittweise vorzugehen. Die Begrenzung der Anzahl gleichzeitiger Anfragen trägt dazu bei, dass der Scraping-Prozess die Benutzerfreundlichkeit für menschliche Besucher nicht beeinträchtigt. Außerdem wird durch sorgfältige Beobachtung der Verzögerungen zwischen den Anfragen sichergestellt, dass eine gescrapte Website für alle Parteien offen und zugänglich bleibt. Aggressives Scraping kann zu Funktionsproblemen führen, die nicht nur die Benutzerfreundlichkeit beeinträchtigen, sondern sogar Denial-of-Service-Angriffe (DoS) auslösen können, die die Website zum Absturz bringen und ihre Inhalte für andere unzugänglich machen. Wenn Sie es langsam angehen und das Scraping zu den Zeiten durchführen, in denen die Website am wenigsten aktiv ist, können Sie solche negativen Auswirkungen proaktiv verhindern.
Respektieren Sie die Urheberrechte
Alle aus dem Internet gesammelten Daten gehören nicht Ihnen. Achten Sie beim Scraping der Website darauf, dass Sie keine urheberrechtlich geschützten Daten sammeln. Weitere Informationen zu Urheberrechtsfragen finden Sie in den Allgemeinen Geschäftsbedingungen der Website und in der Datenschutzrichtlinie.
Scrapen Sie nur die Daten, die Sie benötigen
Scrapen Sie nur die Informationen, die Sie wirklich brauchen und für Ihre Arbeit verwenden werden. Damit minimieren Sie das Risiko, dass die gescrapte Website mit unerwünschtem Datenverkehr überlastet wird. Außerdem erhalten Sie nur die Daten, die Sie benötigen, und speichern keine nutzlosen Inhalte in Datenbanken.
Höflich sein
Bevor Sie Scraping betreiben, sollten Sie höflich fragen, ob Sie diese Daten sammeln dürfen.
Sie können den Web Scraper anhand des legitimen Agent-Strings des Benutzers identifizieren. Auf diese Weise wird ein User-Agent angezeigt, der die Eigentümer der Website über Ihre Aktivität, deren Zweck und Organisation informiert. Auf diese Weise zeigen Sie dem Eigentümer der Website Respekt.
Verwenden Sie spezielle Web Scraping Tools
Wenn Sie viele Daten sammeln, kann es fast unmöglich sein, die Standards jeder einzelnen Website zu überprüfen. Es lohnt sich, ein spezialisiertes Tool wie eine Web Scraping API zu verwenden, um Ärger zu vermeiden. Sie können sich auch an unsere Spezialisten wenden, die sich um die korrekte Informationsextraktion kümmern und einen Scraper speziell für Ihre Zwecke entwickeln.
Fazit
Wir hoffen, dass Sie nach der Lektüre dieses Artikels einen kleinen Einblick in die Legalität des Scraping erhalten haben. Web Scraping ist zum Beispiel legal, wenn Sie Daten von Websites für die öffentliche Nutzung oder die akademische Forschung sammeln.
Web Scraping ist illegal, wenn Sie sensible Informationen aus Profitgründen auslesen, z.B. indem Sie persönliche Daten ohne Erlaubnis sammeln und an Dritte verkaufen. Die Weitergabe von gescrapten Inhalten als Ihre eigenen ist ebenfalls unethisch.
Web Scraping hat eine große Zukunft als wertvolles und ethisches Instrument zur Sammlung von Informationen und sogar zur Generierung neuer Informationen im Internet. Wenn Sie die Nutzungsbedingungen anderer Websites respektieren, die Gesetze einhalten und beim Scraping ethisch vorgehen, werden Sie keine Probleme mit den Website-Besitzern bekommen.