Beranda BlogPengikisan web Cara mengikis produk Amazon dengan Node.js dan Puppeteer

Cara mengikis produk Amazon dengan Node.js dan Puppeteer

oleh Kadek

Dengan kata lain, mengumpulkan data Amazon memberi Anda keunggulan kompetitif dan membantu Anda mengembangkan strategi eCommerce yang lebih baik untuk mendominasi pasar. …

Namun bagaimana Anda bisa mengumpulkan data Amazon dalam skala besar?

Pada artikel ini, kami akan menunjukkan cara mengikis produk Amazon menggunakan Node.js dan Puppeteer dengan dua cara:

  1. Buang produk Amazon dengan cara tradisional (pilihan yang lebih memakan waktu)
  2. Ekstrak data produk Amazon dengan ScraperAPI (pendekatan yang lebih mudah diakses dan terukur)

Membuat Amazon Scraper di Node.js (Metode Tradisional)

Sebelum kita memulai proyek kita, penting untuk diingat bahwa pendekatan ini sangat bagus untuk tugas-tugas kecil Amazon scraping. Namun, tanpa menggunakan alat pendukung untuk mengatasi sistem anti-bot, Anda akan segera diblokir jika mencoba mengumpulkan data Amazon dalam skala besar.

Catatan: Untuk menskalakan proyek kami ke kumpulan data yang besar, kami perlu membangun infrastruktur yang mampu melewati sistem anti-bot Amazon, pemblokiran IP, dan analisis data yang diserap. Tidak ingin repot? Lanjutkan dengan langkah ini dan mulailah mengikis dalam beberapa menit.

Sekarang mari kita lihat alat yang Anda perlukan untuk membuat pengikis produk Amazon sederhana.

Langkah 1: Periksa persyaratannya

Sebelum mendalami tutorial ini lebih dalam, pastikan Anda telah menginstal alat-alat ini.

Catatan: Lihatlah tutorial web scraping Node.js kami untuk pemula jika Anda ingin ikhtisar singkat tentang dasar-dasarnya.

Langkah 2. Siapkan proyek

Mari kita mulai dengan membuat folder yang berisi sumber kode Amazon Web Scraper.


	mkdir node-amazon-scraper

Setelah selesai, inisialisasi proyek Node.js dengan menjalankan perintah berikut:


	cd node-amazon-scraper

	npm init -y

Perintah terakhir membuatnya paket.json File dalam folder. Selanjutnya, buat file indeks.js dan tambahkan pernyataan JavaScript sederhana di dalamnya.


	touch index.js

	echo "console.log('Hello world!');" > index.js

Jalankan filenya indeks.js dengan lingkungan runtime Node.js.

Perintah ini akan dicetak Halo Dunia! di terminal.

Langkah 3. Instal Dalang untuk Web Scraping

Dalang menawarkan beberapa fitur untuk web scraping. Pemasangan secara otomatis mengunduh versi browser Chrome saat ini, yang dapat memakan ruang penyimpanan sekitar 200 MB.

Jalankan perintah berikut untuk menginstalnya:

Kami akan mengambil tangkapan layar halaman web untuk melihat Dalang beraksi.

Ayo perbarui filenya indeks.js dengan kode berikut:


	const puppeteer = require('puppeteer');

	const PAGE_URL = "https://amazon.com";
	const SAVE_PICTURE_PATH = "./amazon-homepage.png";
	
	const main = async () => {
		const browser = await puppeteer.launch({ headless: true });
		const page = await browser.newPage();
	
		await page.goto(PAGE_URL);
		await page.screenshot({ path: SAVE_PICTURE_PATH, type: 'png' });
	
		await browser.close();
	}
	
	main();

Pada kode di atas kita menginstruksikan Dalang:

  • Buat sebuah instance dari browser
  • Buka lembaran baru
  • Navigasikan ke beranda Amazon
  • Ambil tangkapan layar halaman tersebut
  • Simpan ke disk

Setelah ini selesai, instance browser akan ditutup.

Jika Anda menelusuri direktori proyek, Anda akan melihat file tersebut amazon-beranda.png.

Langkah 4. Identifikasi informasi yang akan diambil di halaman produk Amazon

Kami menggunakan hasil daftar Amazon untuk istilah pencarian “MacBook Pro” dan mengambil judul produk dan harga.

Arahkan ke Amazon dan cari istilah tersebut. Kemudian periksa halaman tersebut untuk melihat struktur DOM. Selanjutnya, temukan pemilih yang berhubungan dengan informasi ini.

Gambar di bawah menunjukkan posisi judul produk dan harga di DOM.

Pos terkait

Tinggalkan Komentar