Da die weltweit produzierte Datenmenge satte 2,5 Trillionen Bytes pro Tag erreicht, ist Web Scraping für jedes Unternehmen, das Daten sammeln möchte, unverzichtbar geworden öffentlich zugänglich Daten im großen Maßstab.
Wir haben einen erheblichen Anstieg an Datenerfassungstools beobachtet – von APIs bis hin zu abonnementbasierten Diensten –, die jeweils einen anderen Ansatz bieten.
Da dieses Konzept jedoch komplexer wird, werden auch die Preise immer komplexer, was es für Unternehmen schwieriger macht, einzuschätzen, wie viel sie bereit sind auszugeben. In diesem Artikel machen wir es Ihnen leichter, die Preisgestaltung für Web Scraping zu verstehen. Und natürlich helfen wir Ihnen bei der Auswahl einer Lösung basierend auf Ihrem Budget und Ihren Datenextraktionszielen.
Inhaltsverzeichnis
Warum sind die Preise für Web Scraping so verwirrend?
Nun, die Preise für Web Scraping sind nicht verwirrend, weil sie verwirrend sind. Theoretisch ist das Konzept einfach, der Zugriff auf die Rohdaten ist jedoch mit vielen Komplexitäten verbunden. Beispielsweise unterscheiden sich die Technologie und die Einstellungselemente jeder Site. Aus diesem Grund müssen Extraktionslösungen je nach Projekt, an dem Sie arbeiten, unterschiedliche Funktionalitäten bieten. Das passt gut zu unserem ersten Punkt:
1. Web Scraping ist komplexer geworden
Zwei Gründe, warum Web Scraping immer komplizierter wird:
Anti-Scraping-Techniken und Weiterentwicklung der Web-Technologien.
Da Daten wertvoller geworden sind, nutzen immer mehr Menschen Web Scraping, um in großem Umfang Daten zu sammeln. Einige erstellen schlecht optimierte Anwendungen, die den Zielwebsites wirklich schaden können.
Dies hat den Wettlauf zwischen Web-Scrapern, die versuchen, Daten zu sammeln, und Websites, die versuchen, diese vollständig zu blockieren, verschärft. Zusammen mit Letzterem implementieren Websites neuere und ausgefeiltere Anti-Scraping-Techniken, die über Header- und IP-Fingerprinting hinausgehen.
Im Gegenzug müssen sich Datenerfassungsdienste anpassen, um diese Hindernisse effektiv zu bewältigen, indem sie mehr Prozesse zum Mix hinzufügen und somit die Details erhöhen, die bei ihrer Preisgestaltung berücksichtigt werden müssen.
Andererseits ist das Web auch komplexer geworden, da Websites geospezifische Daten anzeigen und JavaScript zum Einfügen dynamischer Inhalte verwenden, was ein effizientes Scraping schwieriger macht.
Unabhängig davon, wofür Sie sich entscheiden, muss es Anti-Scraping-Techniken und die Komplexität der Website bewältigen, ohne die Geschwindigkeit und Zuverlässigkeit zu beeinträchtigen. Es nützt nichts, wenn ein Tool schnell ist, wenn die Mehrzahl der Anfragen fehlschlägt, und wenn es zu lange dauert, verzögert es andere Vorgänge.
2. Es gibt viele verschiedene Ansätze für Web Scraping
Das unterschiedliche Wissen der Benutzer erfordert einen anderen Ansatz beim Web Scraping, der die Preisgestaltung eines Tools und die von ihm bereitgestellten Funktionen stark beeinflusst. Beispielsweise würden sich Teams ohne Entwicklungserfahrung oder ein Entwicklungsteam eher für eine Plug-and-Play-Lösung interessieren, deren Kosten sich von denen einer Web-Scraping-API oder eines Low-Code-Tools unterscheiden.
Dies bedeutet auch, dass der Vergleich verschiedener Lösungen schwierig werden kann, wenn Sie nicht wissen, was Sie benötigen, oder nicht über das nötige Wissen verfügen, um die verschiedenen Ebenen der Preismodelle zu verstehen. Obwohl jede Lösung mehr oder weniger die gleiche Ausgabe liefert (hauptsächlich formatierte Daten), ist der Ansatz, um dorthin zu gelangen, unterschiedlich, daher auch das Preismodell.
3. Jedes Unternehmen verwendet ein anderes Preismodell
Da jedes Unternehmen und jede Lösung anders ist, können ihre Preismodule stark variieren.
Es gibt einige SaaS-basierte Tools wie ScraperAPI und ScrapeIN, die ein Credit-System verwenden – wobei jeder Plan mit einer festgelegten Anzahl an API-Credits ausgestattet ist. Sie verbrauchen Credits, um Anfragen auszuführen und bestimmte Funktionen zu nutzen. Andere Unternehmen wie Bright Data berechnen basierend auf der Datenmenge, die Sie extrahieren müssen, gemessen in GB. Wie Sie sehen, variiert es also erheblich.
Wenn Sie Ihre Bedürfnisse und die Funktionsweise dieser verschiedenen Modelle nicht verstehen, kann es sehr schwierig werden, das richtige Werkzeug auszuwählen.
Hier sind sechs Dinge, die Sie beim Vergleich von Web-Scraping-Lösungen beachten sollten.
6 Faktoren, die beim Preisvergleich von Web-Scraping-Tools zu berücksichtigen sind
Anstatt zu versuchen, einzigartige Faktoren aufzulisten, die Sie möglicherweise für Ihr nächstes Projekt benötigen könnten (was für uns unmöglich wäre), werfen wir einen Blick auf die sechs wichtigsten und häufigsten Aspekte eines Web-Scraping-Tools und erklären sie wie sie funktionieren und die Preisgestaltung beeinflussen.
Wir fügen konkrete Beispiele einiger der beliebtesten Web-Scraping-Tools hinzu. Am Ende dieses Artikels verfügen Sie über alle notwendigen Informationen, um die richtige Lösung für Ihr Projekt auszuwählen.
Abstraktionsebene: Standard vs. codebasiert
Web-Scraping-Tools können in ein Abstraktionsspektrum eingeteilt werden.
Ein Ende des Spektrums sind für Sie erstellte Tools, die den Prozess vollständig automatisieren, während am anderen Ende Tools stehen, die Ihnen wichtige Hilfestellung bieten, wie Proxys, Rotation und CAPTCHA-Verwaltung, aber der Rest liegt bei Ihnen .
Standardwerkzeuge
Wie Sie sich vorstellen können, sind Standardlösungen tendenziell teurer und weniger anpassbar, da diese Tools hochgradig automatisiert sind und versuchen, das programmgesteuerte Scrapen von Daten so einfach wie möglich zu machen, ohne dass Eingaben des Benutzers erforderlich sind. Ein gutes Beispiel für dieses Tool ist Octoparse, eine Point-and-Click-Schnittstelle, mit der Benutzer Scraper erstellen können. Sie können damit rechnen, 249 US-Dollar/Monat für 250 Aufgaben im Professional-Plan zu zahlen – was sie als einen Crawler definieren, der auf einer Website ohne URL-Beschränkung arbeitet.
Das bedeutet, dass Sie in der Lage sein sollten, 250 Websites pro Monat zu durchsuchen, aber das ist nur die Theorie. In den meisten Fällen möchten Sie das Scraping mehrmals im Monat oder sogar in Echtzeit durchführen. Theoretisch sollten Sie also in der Lage sein, 250 Websites beliebig oft für den gleichen Betrag zu scrapen, oder?
Deshalb ist es so wichtig zu verstehen, wie das Schaben funktioniert.
Octoparse verwendet ein Konzept namens „Workflow“, bei dem es sich um die Automatisierung einer Aufgabe handelt. Jeder Workflow wird als Aufgabe betrachtet, sodass Sie jedes Mal, wenn der Workflow ausgeführt wird, eine Aufgabe gegen Ihr Limit verwenden.
Wenn Sie Ihren Workflow zehnmal im Monat pro Website ausführen müssen, können Sie mit demselben Plan 25 Websites pro Monat durchsuchen.
Wenn Sie ein gebrauchsfertiges Werkzeug prüfen, schauen Sie sich Folgendes an:
- Verhältnis von Dollar zu Daten
- Die Art der Websites, die gescrapt werden können
- Wie sie ihre Grenzen definieren (basierend auf GBs, Aufgaben usw.)
- Verfügen sie über die zusätzlichen Funktionen, die Sie benötigen?
- Können Sie bei Bedarf nach maßgeschneiderten Schabern fragen?
- Können Sie außerhalb des Tools auf die Daten zugreifen?
Notiz: Bei Tools wie Octoparse müssen Sie deren API verwenden, um Ihre Daten aus ihren Systemen abzurufen, oder einige ihrer Exportfunktionen nutzen.
Web-Scraping-APIs
In der Mitte des Spektrums finden Sie eine Vielzahl von Web-Scraping-APIs, die viele komplexe Aufgaben für Sie verwalten (z. B. IP-Rotation und Geo-Targeting usw.), aber Sie müssen Ihre eigenen Skripte schreiben. Diese Tools verwenden in der Regel ein Kreditsystem und sind natürlich in der Regel günstiger als Standardlösungen.
ScraperAPI bietet beispielsweise eine vollständige Web-Scraping-Lösung mit nur einem API-Aufruf. Durch das Hinzufügen einer einfachen Codezeile zu Ihrem Skript können Sie Funktionen wie IP-Rotation, Geo-Targeting und CAPTCHA-Verarbeitung automatisieren. Der Geschäftsplan von ScraperAPI beinhaltet 3 Millionen API-Credits – wovon 1 erfolgreiche Anfrage 1 genutzten API-Credit entspricht – für 299 $/Monat.
Um es ins rechte Licht zu rücken, unterteilen wir es in die Anzahl der Seiten und Websites, die Sie mit diesem Plan pro Monat durchsuchen könnten:
- Wenn Sie einzelne Seiten berücksichtigen, können Sie 3 Millionen Seiten pro Monat durchsuchen.
- Wenn jede Website 1000 URLs hätte, könnten Sie 3.000 Websites pro Monat durchsuchen.
- Wenn Sie einmal pro Woche 1000 URL-Websites überwachen möchten, können Sie 750 Websites pro Monat überwachen
- Wenn Sie jedoch eine tägliche Überwachung dieser Websites benötigen, können Sie mit 3M ScraperAPI-Credits 100 Websites pro Monat überwachen
Es ist wichtig zu beachten, dass die API je nach Bedarf mehr oder weniger Credits verbrauchen kann. Wenn Sie beispielsweise die Funktion „Amazon Scrapes“ verwenden, kostet jede erfolgreiche Anfrage 5 API-Credits statt 1, sodass Sie mit 3 Millionen API-Credits bis zu 600.000 Amazon-Produktseiten scrapen können.
Schauen Sie sich beim Vergleich von Web-Scraping-APIs und Proxy-Managern Folgendes genauer an:
- Wie viele Credits kostet jede Funktion?
- Erheben sie Gebühren für erfolglose Anfragen?
- Bieten sie die Funktionalitäten, die Sie benötigen?
- Behandeln sie CAPTCHAs?
- Wie hoch ist ihre Erfolgsquote und die Verfügbarkeit ihrer Proxys?
Ein klarer Vorteil dieser Web-Scraping-API-Tools besteht darin, dass sie viele gängige Scraping-Komplexitäten bewältigen und Ihnen die volle Kontrolle über das Verhalten Ihrer Scraper geben. Ihr Team muss jedoch über ausreichende technische Kenntnisse verfügen, um eigene Scraping-Skripte zu erstellen.
Proxy-Anbieter, CAPTCHA-Handler usw.
Das äußerste Ende des Spektrums bilden Proxy-Anbieter, CAPTCHA-Verwaltungsdienste und andere Dienstanbieter, die nur eine Lösung für eine bestimmte Herausforderung anbieten. Um diese Lösungen nutzen zu können, benötigen Sie ein erfahreneres Entwicklerteam, das in der Lage ist, die Infrastruktur zu erstellen und zu warten, um diese Dienste zu verbinden und sie in ihren Skripten zu verwenden.
Beispielsweise müssen Sie die Systeme erstellen und warten, um:
- Wählen Sie die richtigen Proxys für die richtigen Websites aus
- Rotieren Sie Ihre Proxys nach Anfragen
- Vermeiden Sie CAPTCHAs und Honeypot-Fallen
- Wählen Sie die richtigen Header für jede Site
- Umgang mit dynamischen Inhalten
Entwickler haben die volle Kontrolle über jeden Aspekt des Projekts und können hochgradig individuelle Lösungen für Unternehmen und Anwendungen erstellen, aber es gibt auch viele Komplexitäten, die bewältigt werden müssen.
Oxylab ist ein großartiges Beispiel für diese Art von Werkzeug.
Als Proxy-Anbieter bieten sie einen gut optimierten, gepflegten und skalierbaren Proxy-Pool, den Sie für Ihr Projekt verwenden können. Abhängig von der Art des Projekts können Sie sich für einen „Pay-as-you-go“-Ansatz entscheiden und 15 US-Dollar/GB an gescrapten Daten bezahlen oder ein monatliches Abonnement abschließen, um den Preis auf (z. B.) 10 US-Dollar/GB mit einem 600 US-Dollar pro GB zu senken. Monatliche Verpflichtung.
Bei dieser Art von Lösungen gibt es weniger Dinge zu beachten, aber Sie sollten immer sicherstellen, dass sie in 99 % der Fälle positive Ergebnisse liefern.
Geo-Targeting
Mit Geo-Targeting können Sie den Standort ändern, von dem aus Ihre Anfragen gesendet werden, sodass Sie von überall auf der Welt auf genaue geospezifische und/oder geogesperrte Informationen zugreifen können. E-Commerce- und Suchmaschinen-Scraper sind klare Anwendungsfälle für diese Funktionalität, da die angezeigten Ergebnisse normalerweise davon abhängen, wo sich der Benutzer befindet.
Wenn Sie an einem Projekt arbeiten, bei dem Sie Daten aus verschiedenen Regionen sammeln und/oder vergleichen müssen, sollten Sie diesem Thema mehr Aufmerksamkeit schenken. Hier ist eine Tabelle mit drei Lösungen, die diese Funktionalität bieten:
ScrapeIN | ScrapingBee | ScraperAPI | Die Web Scraper-API von Oxylabs | |
Geo-Targeting | 20 API-Credits | Verfügbar mit Premium-Proxys | Kostenlos in allen Plänen | Kostenlos in allen Plänen |
Wenn man sich ihre Preistabellen ansieht, sieht es so aus, als ob die vier oben genannten Tools den gleichen Geo-Targeting-Vorteil bieten, aber wenn man genauer hinschaut, kann man mehr Kontext herausfinden:
- ScraperIN berechnet 20 Credits bei Verwendung von Geo-Targeting. Wenn Sie also den 3M-API-Credits-Plan (199 $/Monat) abonnieren und dann Geo-Targeting verwenden, reduzieren Sie die Gesamtzahl erfolgreicher Anfragen auf 150.000.
- Im Fall von ScrapingBee passiert etwas Ähnliches. Premium-Proxys kosten 10 Credits, die alleinige Aktivierung dieser Funktion würde also ihre 2,5 Mio. Credits* (249 $/Monat) auf 250.000 erfolgreiche Anfragen reduzieren.
- ScraperAPI berechnet keine zusätzlichen Credits für Geo-Targeting, sodass Sie mit Geo-Targeting die gesamten 3 Millionen (299 $/Monat) erfolgreichen Anfragen erhalten können.
- Oxylabs bietet außerdem eine Web-Scraping-API mit Geo-Targeting, die in jedem Plan enthalten ist. Ihr Geschäftsplan sieht jedoch nur 399.000 (399 $/Monat) erfolgreiche Anfragen vor.
Wenn Sie die Verfügbarkeit einer Funktion prüfen, schauen Sie sich die Dokumentation an, um besser zu verstehen, wie jeder Anbieter damit umgeht.
Proxy-Typen und -Verwaltung
Proxys sind ein großer Teil des Erfolgs eines Web Scrapers, aber sie sind nicht alle gleich. Sie möchten sich auf qualitativ hochwertige, gut gewartete und optimierte Proxys verlassen können, daher ist dies ein Aspekt, auf den Sie achten sollten.
Dies sind einige der Arten von Proxys, die Sie finden werden:
- Proxys für Rechenzentren – Diese Proxys sind nicht mit einem Internetdienstanbieter (ISP) verbunden und werden stattdessen in einem Rechenzentrum oder Cloud-Hosting-Dienst gehostet.
- ISP-Proxys – Diese Proxys werden von einem Internetdienstanbieter gekauft oder geleast und sind keinem Endbenutzer oder Gerät zugeordnet. Da sie jedoch mit einem ISP verbunden sind, ist das Risiko von Sperren und Sperren geringer.
- Wohn-Proxys – Diese würden als Premium-Proxys betrachtet, da es sich um Proxys handelt, die einem Hausbesitzer von einem ISP bereitgestellt werden, und sich daher hervorragend für die programmgesteuerte Emulation von Benutzern eignen.
- Mobile Proxys – Wie bei Privat-Proxys handelt es sich dabei um echte IP-Adressen, die mit einem mobilen Gerät verknüpft sind. Dadurch eignen sie sich hervorragend zum Nachahmen des Benutzerverhaltens und zum Zugriff auf Daten, als wären Sie ein mobiler Benutzer.
Die meisten Proxy-Anbieter gewähren Ihnen je nach Bedarf Zugriff auf eine Mischung dieser Proxys. Bright Data und Oxylabs bieten Ihnen beispielsweise die Möglichkeit, einen Monatsplan für jede dieser Arten von IPs zu kaufen, wobei Rechenzentrums-Proxys in der Regel am günstigsten und Privat- und Mobil-Proxys am teuersten sind – Sie müssen sich jedoch darauf festlegen Verwenden Sie eine Art von Proxys oder kaufen Sie jeweils ein anderes Limit, je nach Ihren Anforderungen.
Andererseits geben Ihnen Standardlösungen wie Octoparse keine Kontrolle über die Proxys, die Sie für die Arbeitsabläufe verwenden, da diese verschiedene Kombinationen ausprobieren, um die von Ihnen angeforderten Daten zu sammeln.
Web-Scraping-APIs wie ScraperAPI und ScrapingBee verwenden Parameter, um zu definieren, wann Premium-Proxys (privat und mobil) verwendet werden sollen, und geben Ihnen während der Arbeit am Projekt die vollständige Kontrolle über die Proxys. Diese Flexibilität ist durch ein Credit-System möglich. Beide genannten Lösungen verlangen 10 API-Credits für Premium-Proxys.
Notiz: Es ist wichtig zu erwähnen, dass ScraperAPI maschinelles Lernen und jahrelange statistische Analysen nutzt, um alle Komplexitäten automatisch zu bewältigen. Obwohl es einige sehr spezifische Umstände gibt, in denen Sie von mehr Kontrolle profitieren könnten, ist in 99 % der Fälle kein zusätzlicher Input erforderlich.
Ein weiterer zu berücksichtigender Faktor ist die Proxy-Verwaltung. Es gibt viele Gründe, warum Sie Ihre Proxys nicht selbst verwalten möchten – um nur einige zu nennen:
- Es ist ein ressourcenintensiver Prozess in Bezug auf Zeit und Geld
- Sie müssen IP-Adressen aus mehreren Pools rotieren
- Sie müssen Systeme für den Umgang mit CAPTCHAs erstellen
- Sie müssen die Wiederholungsversuche manuell festlegen
Die meisten Proxy-Anbieter verfügen über eine eigene Version eines Proxy-Managers, während Scraping-APIs technisch gesehen selbst Proxy-Manager sind.
Wenn Sie sich für ein Proxy-Verwaltungssystem entscheiden, möchten Sie so viel harte Arbeit wie möglich auf den Anbieter abwälzen, ohne die vollständige Kontrolle darüber zu verlieren, was hinter den Kulissen geschieht – und auch nicht für die gleichen Funktionalitäten, die andere bereitstellen, zu viel in Rechnung gestellt zu werden.
Der Web Unlocker von Bright Data kostet Sie beispielsweise 1.000 US-Dollar pro Monat (Jahresplan) für 476.190 erfolgreiche Anfragen. Aber hier ist zusätzliche Forschung wichtig. Ihre Preisgestaltung scheint klar genug zu sein, aber in ihrer Dokumentation heißt es:
„Obwohl Ihnen die fehlgeschlagene Anfrage nicht in Rechnung gestellt wurde, berechnet BrightData zusätzliche Header oder die verwendete Browser-Automatisierungsbandbreite. Um einen stabilen und transparenten Preis für das Tool zu erhalten, können Sie sich an Ihren Account Manager wenden, um den Preis von BW auf CPM zu ändern.“ Im gleichen Plan betragen die CPM-Kosten 2,10 $/1000 erfolgreiche Anfragen – 2,40 $/CPM beim Monatsplan.
Bei derselben Preisspanne (999 $) bieten ScraperAPI und ScrapingBee die gleiche Funktionalität, aber insgesamt 14 Mio. bzw. 12,5 Mio. API-Credits. Ohne die Aktivierung zusätzlicher Funktionen wären das mehr als 10 Millionen zusätzliche erfolgreiche Anfragen.
Selbst wenn wir Geo-Targeting und Premium-Proxys in die Mischung einbeziehen:
ScrapeIN | ScrapingBee | ScraperAPI | |
Geo-Targeting | 20 API-Credits | Verfügbar mit Premium-Proxys | Kostenlos in allen Plänen |
Prämie | 10 API-Credits | 10 API-Credits | 10 API-Credits |
Kosten | 599 $/Monat | 999 $/Monat | 999 $/Monat |
API-Credits | 15M | 12,5 Mio | 14M |
Erfolgreiche Anfragen | 500.000 | 1,25 Mio | 1,4 Mio |
Notiz: Erwähnenswert ist, dass alle Anbieter technischen Support anbieten, Bright Data jedoch auf jeder Planebene einen eigenen Account Manager bietet. ScraperAPI bietet auch dedizierten Support, allerdings nur für Unternehmenskunden.
Spezialisierung vs. Mehrzweck
Sie müssen überlegen, ob Sie ein Allzweck-Tool zum Durchsuchen einer Vielzahl von Websites oder ein spezielles Tool zum Durchsuchen bestimmter Websites benötigen – normalerweise schwierige Websites wie Amazon und Google.
Natürlich bieten einige Tools beides und funktionieren sehr gut, aber Sie müssen die Art der Seiten kennen, die Sie durchsuchen möchten, um eine fundierte Entscheidung treffen zu können. Wenn Sie beispielsweise eine Art SEO-App erstellen möchten, bei der Sie die Suchergebnisse überwachen müssen, benötigen Sie ein Tool, das diesen Prozess beschleunigt – insbesondere, wenn Sie Echtzeitdaten benötigen.
Von den bereits erwähnten Tools bieten ScraperAPI, ScrapingBee, Bright Data und Oxylabs eine SERP-API, mit der Daten von Google SERPs im JSON-Format abgerufen werden können. Hier ein kurzer Überblick über ihre Pläne:
Die Google Search API (Enterprise) von ScrapingBee bietet:
- 500.000 Suchanfragen
- 12,5 Mio. API-Credits
- Jede erfolgreiche Anfrage kostet 25 API-Credits
- Insgesamt 500.000 erfolgreiche Anfragen
- Kosten: 999 $
- Nur Google-Suche
- Gibt JSON-Daten zurück
Die SERP-Scraper-API (Corporate) von Oxylabs bietet:
- 526.000 Seiten – entspricht erfolgreichen Anfragen
- Kosten 999 $ oder 1,99 $/1000 erfolgreiche Anfragen
- Funktioniert mit Google, Baidu, Bing und Yandex
- Gibt JSON-Daten zurück
Die SERP API (Advance) von Bright Data bietet:
- 476.190 erfolgreiche Anfragen
- Kosten 1.000 $/Monat oder 2,40 $/CPM
- 1 CPM entspricht 1000 erfolgreichen Anfragen
- Funktioniert mit Google, Bing, DuckDuckGo, Yandex und Baidu
- Gibt JSON- und HTML-Daten zurück
ScraperAPI bietet keinen speziellen Plan für das Scraping von Google. Stattdessen verwendet es einen automatischen Parser, um Google-Such- und Google-Shopping-Daten im JSON-Format zurückzugeben, die mit seinen regulären Plänen verwendet werden können. Es würde ungefähr so aussehen:
Die automatische Analyse der Google-Suche (Professional) von ScraperAPI bietet:
- Keine Suchbeschränkungen
- 14 Millionen API-Credits
- Jede erfolgreiche Anfrage kostet 25 API-Credits
- Insgesamt 560.000 erfolgreiche Anfragen
- Kosten: 999 $
- Funktioniert mit der Google-Suche und Google Shopping
- Gibt JSON-Daten zurück
Wenn Sie also nur Google SERPs scrapen müssen, ist ScraperAPI oder ScrapingBee besser geeignet. Um andere Suchmaschinen zu übertreffen, sind Bright Data und Oxylabs die besseren Optionen, wobei Oxylabs einen günstigeren Plan bietet. Wenn Sie DuckDuckGo jedoch aus einem Parser-ähnlichen Dienst (der JSON-Daten zurückgibt) entfernen möchten, ist die beste Option die Verwendung von Bright Data – sofern dies im Hinblick auf das Budget sinnvoll ist, da Sie durch das Scraping mehr Daten erhalten APIs oder wenn Sie ein Plug-and-Play-Tool wünschen.
JavaScript-Rendering
Immer mehr datenintensive Websites werden mit JavaScript-Frameworks wie React, Angular und Vue erstellt, die es ermöglichen, dynamische Inhalte in die Seite einzufügen und das Benutzererlebnis zu verbessern.
Allerdings können normale Skripte nicht auf diesen Inhalt zugreifen, da der Browser die Seite rendern und den JavaScript-Code ausführen muss, damit sie funktioniert. Heutzutage können Sie traditionell beispielsweise einen Headless-Browser mit Puppeteer (Node.js) verwenden. Dies verlangsamt jedoch Ihre Datenerfassung und erschwert die Skalierung. Ganz zu schweigen von dem Risiko, dieses Rendering „zu Hause“ durchzuführen.
Nehmen wir ScraperAPI als Beispiel. Wenn Sie Puppeteer verwenden, um einen Headless-Browser zu steuern, öffnen Sie im Grunde eine Browserinstanz lokal und rufen Ihre API-URLs programmgesteuert auf – z. B. https://api.scraperapi.com/?api_key=YOUR_KEY&url=https://example.com
–, den Inhalt über ScraperAPI abrufen, aber den Browser zum Rendern der Seite verwenden.
Da beginnen die Probleme.
Zum Rendern der Seite muss Ihr Browser alle eingebetteten Ressourcen (JS-Dateien, CSS-Dateien usw.) herunterladen. Da Ihr lokaler Browser derjenige ist, der die Anfrage sendet, verwendet er Ihre echte IP-Adresse und macht Sie so Ihrem Ziel zugänglich Website. (Theoretisch könnten Sie einen Abfangcode schreiben, um die Anfragen zu kapern und die Ressourcen über ScraperAPI abzurufen, aber das erhöht die Komplexität und löst nicht das gesamte Problem.)
Wenn Sie sich den Link oben ansehen, werden Sie feststellen, dass sich Ihr API-Schlüssel in der URL befindet. Dies bedeutet, dass alle Ressourcen, die über diese Methode heruntergeladen werden, diese URL als Referrer (bzw. als Ursprung) sehen CORS), einschließlich Ihres API-Schlüssels. Bei der Auswahl eines Web-Scraping-Tools darf diese Funktion nicht fehlen, sonst schränken Sie sich stark ein.
Die meisten Standardtools (wie Octoparse) und Scraping-Tools in einem Pro-Seiten-Modell (wie Bright Data und Oxylabs) sollten auf ihrer Seite Headless-Browser verwenden, um JavaScript-Inhalte zu verarbeiten, aber wir konnten in ihrer Dokumentation keine Spezifikation finden , also müssten Sie sie kontaktieren, um mehr zu erfahren. APIs (wie ScraperAPI, ScrapeIN und ScrapingBee) ermöglichen es Ihnen jedoch, JS-Rendering zu aktivieren und für jede erfolgreiche Anfrage zusätzliche API-Credits zu berechnen, wodurch das Rendering von Ihrem Computer übernommen wird, sodass Sie sich ausschließlich auf Daten konzentrieren können.
Letzte Gedanken
Sobald Sie die Funktionsweise der verschiedenen Web-Scraping-Tools verstanden haben, ist es einfacher, deren Preise zu bewerten und die kleinen Details zu finden, die Ihnen bei der Planung des Projektbudgets helfen. Es ist wichtig, die Dokumentation jedes Werkzeugs zu lesen und die jeweilige Sprache zu lernen, um Überraschungen bei der Abrechnung zu vermeiden.
Überlegen Sie außerdem, welche Anforderungen an Ihr Projekt gestellt werden, und listen Sie diese in einer Checkliste auf. Ohne einen klaren Handlungsspielraum kann es sein, dass Sie eine Entscheidung allein auf der Grundlage des Geldes treffen und am Ende die falsche Wahl treffen.
Wenn Sie immer noch Zweifel haben, senden Sie uns Ihre Preisfragen. Wir helfen Ihnen gerne weiter. Bis zum nächsten Mal, viel Spaß beim Schaben!