Heim BlogWeb-Scraping Ein Einblick in E-Commerce und Web Scraping mit Pierluigi Vinciguerra (DataTalk Nr. 1)

Ein Einblick in E-Commerce und Web Scraping mit Pierluigi Vinciguerra (DataTalk Nr. 1)

von Kadek

Für unseren ersten Eintrag dieses Interviewformats, das wir DataTalk nennen, haben wir Pierluigi Vinciguerra, Mitbegründer und CTO von Re Analytics und CTO von databoutigue.com, eingeladen, um über seine Erfahrungen in der E-Commerce-Branche zu sprechen.

Wir hoffen, es gefällt Ihnen!


LÖWE: Vielen Dank für deine Zeit, Pier! Erzähl uns doch zunächst mehr über dich und dein Unternehmen.

PIER: Zunächst möchte ich mich bei Ihnen dafür bedanken, dass Sie mich hierher eingeladen haben. Mein Name ist Pierluigi und ich bin der CTO von Re Analytics und Databoutique.com.

Ich begann 2009 bei Accenture zu arbeiten, wo ich Andrea, die andere Mitbegründerin von databoutique, kennenlernte.

Wir arbeiteten an der Verwaltung der Dateninfrastruktur von Banken und Versicherungen und begannen dann nach der Präsentation einer von einem Anbieter erstellten Geodatenbank darüber nachzudenken, welche Daten perfekt dazu passen könnten.

Wir erkannten damals, dass der Datenstrom auf den Immobilien-Websites ein riesiges Potenzial hatte, das jedoch niemand sammelte, und begannen, dies mithilfe einiger einfacher Scraper zu tun.

Bald verfügten wir über die größte Datenbank mit Immobilienanzeigen in Italien, die sogar größer war als die Datenbanken der offiziellen Datenanbieter der Regierung. Leider ließ sich daraus kein verkaufsfähiges Produkt entwickeln, aber wir erkannten das Potenzial von Web Scraping als Datenquelle.

Nach den ersten Experimenten mit Web Scraping haben wir unsere Technik verfeinert und uns 2015 auf E-Commerce Scraping für Mode konzentriert, was aus verschiedenen Gründen eine großartige Wahl war:

  • Wir sind Italiener und stehen den meisten Modemarken und ihrem Netzwerk sehr nahe. Normalerweise verfügt eine Modemarke über eine Website, die verschiedene Länder mit jeweils unterschiedlichen Preisen bedient.
  • Zudem sind die meisten dieser Marken börsennotiert und daher nicht nur für die Modemarken selbst, sondern auch für die Finanzwelt interessant.

Also begannen wir mit der Erstellung einiger Analysen auf der Grundlage der extrahierten Daten und als wir den ersten Beweis für die Markttauglichkeit hatten, kündigten Andrea und ich unsere Jobs, um Re Analytics zu gründen.

Es war und ist noch immer ein Unternehmen zur Extraktion von Webdaten, das den Daten auch Branchenexpertise hinzufügt und sich auf den elektronischen Modehandel konzentriert. Und tatsächlich verkaufen wir unsere Analysen und Dienste direkt oder indirekt an die meisten großen Modemarken in Italien und an einige Investoren in diesem Bereich.

Das Unternehmen funktioniert, aber im Laufe der Jahre in diesem Bereich sind wir auf einige Grenzen gestoßen, die allen Web-Scraping-Fabriken gemein sind: Es ist schwierig, alle Anfragen Ihrer oder potenziellen Kunden zu erfüllen.

Um all diese Probleme zu lösen, haben wir, Andrea und ich, databoutique erstellt, einen Marktplatz, der speziell für öffentliche, legale und qualitätsgesicherte, aus dem Web Scraping gewonnene Daten konzipiert ist.

LÖWE: Sie haben wahrscheinlich schon viele Trends kommen und gehen sehen. Daher frage ich mich: Wie würden Sie sagen, dass Daten die E-Commerce-Branche verändern? – Ich hoffe, ich drücke mich richtig aus.

PIER: E-Commerce ist eine so große Branche, dass ich nicht sagen kann, wie sie sich aus globaler Sicht verändert. Ich kann aber sagen, was ich aus meiner Perspektive in Europa und vor allem auf Websites für Luxusgüter gesehen habe.

Wir können sagen, dass sich der E-Commerce in dieser Branche in den letzten zehn Jahren von einer unbedeutenden Größe (die meisten dieser High-End-Luxusmarken hatten überhaupt keinen E-Commerce) zu einem Must-have entwickelt hat, das einen erheblichen Teil ihres Umsatzes ausmacht.

Allerdings bringt der Betrieb einer E-Commerce-Website auch einige Herausforderungen mit sich, da Sie Ihre Preise grundsätzlich der Öffentlichkeit preisgeben, was in der Luxusbranche ungewohnt ist.

Sie treten in den Wettbewerb auf derselben Arena (dem Internet) mit Ihren eigenen Großhandelskunden (Multimarkengeschäfte, die bei Ihnen kaufen, um die Waren an ihre Kunden weiterzuverkaufen) und mit Ihren eigenen Ladengeschäften.

Das bedeutet, dass Ihre Preise auf allen Kanälen einheitlich sein müssen. Während Direktvertriebsmarken die Kontrolle über das Geschehen haben, gilt dies nicht für Großhändler. Daher möchten wir Webdaten anfordern, um besser zu verstehen, was auf dem Markt passiert.

LÖWE: Wann wäre vor diesem Hintergrund für ein Unternehmen ein guter Zeitpunkt, mit der Datenerfassung zu beginnen?

PIER: Das ist eine gute Frage und die Antwort ist nicht einfach, da es im Allgemeinen schwierig ist, den Return on Investment für jedes Datenprojekt zu verstehen.

Ich meine, Sie kaufen keine neue Lösung, mit der Sie X Prozent Ihrer Cloud-Rechnungen sparen können, aber wenn Sie Daten kaufen (oder Web Scraping-Operationen einführen), kaufen Sie im Grunde die erste Zutat eines Rezeptes. Dann brauchen Sie die Fähigkeit des Kochs, etwas Köstliches daraus zu schnitzen, und einen Kunden, der das Gericht köstlich findet.

Um auf Ihre Frage zurückzukommen: Natürlich ist es besser, je mehr Daten ein Unternehmen hat, denn das Data Science-Team hat bessere Chancen, etwas Sinnvolles zu finden. Ich denke jedoch, dass ein Unternehmen zunächst Ziele für bestimmte KPIs festlegen und versuchen muss, herauszufinden, welche Datenquellen nützlich sein könnten, um das beobachtete Phänomen besser zu verstehen und wie dieser KPI verbessert werden kann. Sobald dies definiert ist, sollten Sie die benötigten Daten erfassen und mit der Entwicklung einiger Lösungen beginnen.

LÖWE: Glauben Sie aufgrund Ihrer Erfahrung, dass Unternehmen (heute) das volle Potenzial alternativer Daten nutzen?

PIER: Der Begriff „alternative Daten“ bezieht sich auf Datenquellen, die bei der Beschreibung der finanziellen KPIs eines Unternehmens helfen können und nicht vom Unternehmen selbst stammen. Diese Art von Daten ist für Hedgefonds und Anleger im Allgemeinen äußerst interessant.

Die bekanntesten alternativen Daten sind Kreditkartentransaktionen: Wenn man weiß, wo und was die Leute gekauft haben, kann man anhand einiger mathematischer Modelle vorhersagen, wie sich ein einzelnes börsennotiertes Unternehmen im Vergleich zum letzten Jahr entwickelt.

Da es keinen einzelnen Datenanbieter für alle Transaktionen auf der Welt gibt, verfügen Sie möglicherweise nicht über die richtigen Umsatzzahlen, aber Sie können sich diesen annähern.

Natürlich könnte Web Scraping auch zur Generierung alternativer Daten genutzt werden: Viele Websites legen die Lagerbestände offen, sodass Sie anhand dieser Angaben die verkaufte Stückzahl schätzen können. Sie können den Online-Ruf und die Bewertungen eines Unternehmens sowie die Zufriedenheit seiner Kunden verfolgen und viele weitere Anwendungsfälle nutzen.

Mit nur einem Datensatz erhalten Sie möglicherweise kein Gesamtbild. Durch das Hinzufügen verschiedener Datensätze zum selben Unternehmen erhalten Sie jedoch einen klareren Überblick.

Auch hier gilt, dass die Einführung alternativer Daten aus dem Web Scraping immer noch durch die Kosten dieser Art von Daten und die Schwierigkeit, das Datenprodukt mit einem bestimmten zu verfolgenden KPI zu verknüpfen, begrenzt ist. Daher ist es schwierig, den Return on Investment zu verstehen, aber wir stehen noch immer am Anfang der Einführungskurve.

LÖWE: Sie haben kürzlich einen interessanten Artikel über Lagerbestände veröffentlicht, der perfekt hierher passt. Können Sie uns mehr darüber erzählen?

PIER: Dies ist genau ein Beispiel für alternative Daten auf Basis von Web Scraping, die verwendet werden könnten!

In diesem Artikel habe ich beschrieben, wie Lowe‘s, ein börsennotiertes Unternehmen für Heimwerkerbedarf, auf seiner Website die genaue Menge der verfügbaren Artikel pro angezeigtem Artikel anzeigt.

Das heißt: Wenn wir erst einmal verstanden haben, welchen Einfluss der Online-Kanal auf den weltweiten Umsatz des Unternehmens hat und woher die verkauften Waren stammen (aus Lagern oder Ladengeschäften), können wir die über die Website getätigten Verkäufe und damit den weltweiten Umsatz des Unternehmens schätzen.

In diesem speziellen Fall müssen Sie Ihren bevorzugten Abholshop auswählen, bevor Sie die Artikelverfügbarkeit dort erfahren. Da die Website mit Akamai geschützt war und der bevorzugte Shop geändert werden musste, habe ich mich für Playwright entschieden.

Auf diese Weise konnte ich die Browserkoordinaten auf die des Geschäfts setzen, das ich auswählen wollte, und gleichzeitig Akamai problemlos umgehen, da ich für die Interaktion mit der Website einen echten Browser verwendete.

Da der Artikel das Potenzial von Web Scraping zur Erstellung alternativer Daten für die Finanzbranche aufzeigen sollte, habe ich den Scraper nicht auf der gesamten Website ausgeführt, sondern nur in der Kategorie „French Door-Kühlschränke“. Dabei habe ich festgestellt, dass, wenn Sie einen Artikel auf der Website von Lowe bestellen und beschließen, ihn in einem Geschäft abzuholen, der Artikel wahrscheinlich aus einem Lager und nicht aus dem Geschäft selbst stammt.

Tatsächlich waren die Lagerbestände zumindest in dieser Kategorie bei zwei verschiedenen Geschäften in NY gleich. Bei der Auswahl eines anderen Geschäfts in LA waren die Bestände unterschiedlich. Sie werden also wahrscheinlich von unterschiedlichen Lagern beliefert.

Aber warum sind diese Informationen so interessant? Indem Sie die Lagerbestände verfolgen, können Sie den Umsatz schätzen und, wenn Sie über genügend historische Daten verfügen, Trends nicht nur bei Lowe‘s selbst, sondern auch bei den von Lowe‘s verkauften Marken deutlich erkennen. Sie können prüfen, ob diese mit den Umsätzen korrelieren oder wie ein neues Produkt vom Markt wahrgenommen wird (nehmen wir als Beispiel eine neue Version von Apple TV).

LÖWE: Vielen Dank für deine tollen Antworten, Pier! Ich weiß deine Zeit und deine Leidenschaft für diese Branche wirklich zu schätzen. Bevor du gehst, kannst du unseren Lesern sagen, wie sie mit dir in Kontakt bleiben können?

PIER: Ich teile meine Erfahrungen mit Web Scraping mit Artikeln wie dem, den Sie zuvor erwähnt haben, auf einem Substack namens The Web Scraping Club. Die meisten Artikel sind kostenlos und reichen von Kursen für Anfänger bis hin zu Produktbewertungen und fortgeschrittenen Techniken mit Code und Beispielen. Wir haben auch einen Discord-Server, um Ideen und Zweifel auszutauschen, und Sie können mich auf LinkedIn erreichen.


Wir hoffen, Ihnen hat unser erstes DataTalk-Interview gefallen! Wir haben noch viele weitere interessante Gesprächsthemen für 2024 auf Lager, also bleiben Sie dran für mehr ^^

Möchten Sie mehr über E-Commerce-Scraping erfahren? Schauen Sie sich unsere neuesten Tutorials und Anleitungen an:

Related Posts

Hinterlasse einen Kommentar