Mit anderen Worten: Das Sammeln von Amazon-Daten verschafft Ihnen einen Wettbewerbsvorteil und hilft Ihnen, eine bessere E-Commerce-Strategie für die Marktbeherrschung zu entwickeln.
Aber wie können Sie Amazon-Daten in großem Maßstab sammeln?
In diesem Artikel zeigen wir Ihnen, wie Sie Amazon-Produkte mit Node.js und Puppeteer auf zwei Arten scrappen:
- Amazon-Produkte auf herkömmliche Weise entsorgen (eine zeitaufwändigere Option)
- Extrahieren Sie Amazon-Produktdaten mit ScraperAPI (ein zugänglicherer und skalierbarerer Ansatz)
Inhaltsverzeichnis
Erstellen eines Amazon Scrapers in Node.js (traditionelle Methode)
Bevor wir mit unserem Projekt beginnen, ist es wichtig, sich daran zu erinnern, dass sich dieser Ansatz hervorragend für kleine Amazon-Scraping-Aufgaben eignet. Ohne den Einsatz unterstützender Tools zur Überwindung von Anti-Bot-Systemen werden Sie jedoch schnell blockiert, wenn Sie versuchen, Amazon-Daten in großem Umfang zu sammeln.
Notiz: Um unser Projekt auf einen großen Datensatz zu skalieren, müssten wir eine Infrastruktur aufbauen, die in der Lage ist, Amazons Anti-Bot-System, IP-Blockaden und die Analyse erfasster Daten zu umgehen. Sie möchten den Ärger nicht? Fahren Sie mit diesem Schritt fort und beginnen Sie in wenigen Minuten mit dem Schaben.
Lassen Sie uns nun einen Blick auf die Tools werfen, die Sie benötigen, um einen einfachen Amazon-Produkt-Scraper zu erstellen.
Schritt 1: Überprüfen Sie die Voraussetzungen
Bevor Sie tiefer in dieses Tutorial eintauchen, stellen Sie sicher, dass diese Tools installiert sind.
Notiz: Werfen Sie einen Blick auf unser Node.js-Web-Scraping-Tutorial für Anfänger, wenn Sie einen schnellen Überblick über die Grundlagen erhalten möchten.
Schritt 2. Richten Sie ein Projekt ein
Beginnen wir mit der Erstellung eines Ordners, der die Codequelle des Amazon Web Scrapers enthält.
mkdir node-amazon-scraper
Wenn Sie fertig sind, initialisieren Sie ein Node.js-Projekt, indem Sie den folgenden Befehl ausführen:
cd node-amazon-scraper
npm init -y
Der letzte Befehl erstellt eine package.json Datei im Ordner. Als nächstes erstellen Sie eine Datei index.js und fügen Sie darin eine einfache JavaScript-Anweisung hinzu.
touch index.js
echo "console.log('Hello world!');" > index.js
Führen Sie die Datei aus index.js mit der Node.js-Laufzeitumgebung.
Dieser Befehl wird gedruckt Hallo Welt! im Terminal.
Schritt 3. Installieren Sie Puppeteer für Web Scraping
Puppeteer bietet mehrere Funktionen für Web Scraping. Bei der Installation wird automatisch eine aktuelle Version des Chrome-Browsers heruntergeladen, die etwa 200 MB Speicherplatz beanspruchen kann.
Führen Sie den folgenden Befehl aus, um es zu installieren:
Wir machen einen Screenshot einer Webseite, um Puppeteer in Aktion zu sehen.
Lassen Sie uns die Datei aktualisieren index.js mit folgendem Code:
const puppeteer = require('puppeteer');
const PAGE_URL = "https://amazon.com";
const SAVE_PICTURE_PATH = "./amazon-homepage.png";
const main = async () => {
const browser = await puppeteer.launch({ headless: true });
const page = await browser.newPage();
await page.goto(PAGE_URL);
await page.screenshot({ path: SAVE_PICTURE_PATH, type: 'png' });
await browser.close();
}
main();
Im obigen Code weisen wir Puppeteer an:
- Erstellen Sie eine Instanz des Browsers
- Öffnen Sie eine neue Seite
- Navigieren Sie zur Amazon-Homepage
- Machen Sie einen Screenshot der Seite
- Speichern Sie es auf der Festplatte
Sobald dies erledigt ist, wird die Browserinstanz geschlossen.
Wenn Sie das Projektverzeichnis durchsuchen, sehen Sie die Datei amazon-homepage.png.
Schritt 4. Identifizieren Sie die Informationen, die auf der Amazon-Produktseite abgerufen werden sollen
Wir verwenden die Amazon-Eintragsergebnisse für den Suchbegriff „MacBook Pro“ und rufen den Produkttitel und den Preis ab.
Navigieren Sie zu Amazon und suchen Sie nach dem Begriff. Untersuchen Sie dann die Seite, um die DOM-Struktur zu sehen. Suchen Sie als Nächstes den Selektor, der sich auf diese Informationen bezieht.
Das Bild unten zeigt die Position des Produkttitels und des Preises im DOM.