Pengikisan web telah menjadi alat yang sangat diperlukan untuk mengekstraksi data dari situs web di berbagai industri.
Namun, terkadang sulit untuk memahami terminologi yang terkait dengan web scraping.
Dalam postingan blog ini, kami memberi Anda glosarium istilah komprehensif yang pasti akan membantu Anda memulai dunia web scraping.
Baik Anda baru dalam ekstraksi data atau profesional berpengalaman, glosarium ini akan berfungsi sebagai referensi praktis untuk memastikan Anda tetap mendapat informasi lengkap.
Daftar Isi
1. Akun
Akun mewakili akun pelanggan perorangan, perusahaan, atau bahkan organisasi mitra tempat kita berbisnis. Ini berfungsi sebagai dasar untuk mengelola dan mengatur proyek pengumpulan data.
2. Pemilik rekening
Demikian pula, pemegang akun adalah kontak yang ditunjuk oleh Grepsr yang bertanggung jawab atas penyediaan, dukungan, dan perluasan akun. Peran ini diperuntukkan bagi jenis akun tertentu dan memastikan kelancaran komunikasi dan koordinasi antara pelanggan dan Grepsr.
3. Platform data
Platform Data adalah sistem manajemen proyek data tingkat perusahaan milik Grepsr. Ini terdiri dari dua bagian yang saling melengkapi: Pertama, infrastruktur backend yang menangani ekstraksi dan pengelolaan data. Selain itu, antarmuka frontend memungkinkan pengguna untuk mengonfigurasi dan memantau proyek scraping mereka.
4. Proyek Data
Proyek adalah sarana untuk menerjemahkan kebutuhan pelanggan menjadi data yang dapat ditindaklanjuti dan menciptakan nilai. Ini mencakup persyaratan data seperti URL dan titik data yang akan diekstraksi, serta instruksi tambahan yang diperlukan untuk mengambil data secara efektif.
5. Laporan Data
Persyaratan proyek dikelompokkan ke dalam kelompok yang disebut Laporan. Laporan mewakili kasus penggunaan atau serangkaian data terperinci dan persyaratan penerapan. Anda dapat segera menjalankannya dan mengirimkannya bersama-sama. Setiap laporan dikaitkan dengan serangkaian instruksi terprogram ke sumber data, yang disebut crawler atau layanan.
6. Perayap data (atau laba-laba)
Perayap secara terprogram membuka situs web dan berinteraksi dengannya untuk menganalisis konten dan mengekstrak data. Versi ini dibuat untuk mencerminkan perubahan volume data dari waktu ke waktu. Oleh karena itu, proyek yang sukses akan memiliki setidaknya satu laporan yang terkait dengan versi crawler unik.
7. Berlari
Proses adalah eksekusi crawler. Ini mengambil data dari situs web target berdasarkan instruksi dan konfigurasi yang ditentukan.
8. Kumpulan Data
Kumpulan data adalah keluaran data yang dihasilkan dari proses. Ini berisi data yang diekstraksi dalam format terstruktur yang siap untuk dianalisis dan diproses.
halaman ke-9
Halaman dalam catatan mirip dengan lembar dalam spreadsheet. Setiap catatan terdiri dari setidaknya satu halaman, memungkinkan normalisasi hasil akhir, mirip dengan database relasional atau pemisahan perhatian.
10. Kolom
Kolom adalah bidang yang diekstraksi dalam rekaman atau halaman dalam rekaman. Mereka mengatur data dan memberikan struktur yang jelas pada informasi yang diekstraksi.
11. Kolom yang diindeks
Mengindeks kolom adalah proses penting dalam manajemen database. Ini berarti bahwa keluaran data yang dihasilkan untuk kolom tertentu disimpan sedemikian rupa sehingga memungkinkan pemfilteran, pengurutan, dan pencarian jutaan catatan tanpa penundaan.
baris ke-12
Setiap baris rekaman dalam kumpulan data adalah satu baris. Baris berisi data yang diekstraksi untuk setiap instance atau entri tertentu.
13. Objek
Dalam keluaran JSON, baris rekaman adalah sebuah objek. Berbeda dengan baris, suatu objek dapat berlapis-lapis, memungkinkan struktur representasi data yang lebih kompleks.
14. Kualitas data
Kualitas adalah istilah umum yang digunakan untuk mengukur kualitas laporan secara kuantitatif, kualitatif, dan keseluruhan. Berbagai faktor diperhitungkan. Ini mencakup keakuratan, kelengkapan, distribusi data, baris dan persyaratan.
15. Akurasi Data
Presisi adalah nilai numerik, yang dinyatakan dalam persentase, yang mengukur apakah data sumber sesuai dengan format data yang diharapkan. Aturan yang ditetapkan ke kolom berbeda dalam kumpulan data memvalidasi kepatuhan. Oleh karena itu, akurasi yang lebih tinggi menunjukkan kepatuhan yang lebih baik terhadap standar data.
16. Kelengkapan Data
Kelengkapan mengacu pada keadaan di mana data memuat semua informasi yang dapat diambil dari sumbernya. Rasio pengisian mengukurnya, yang menghitung kepadatan data dalam kumpulan data.
17. Tingkat pengisian
Selain itu, rasio pengisian adalah nilai numerik, yang dinyatakan sebagai persentase, yang mengukur kepadatan data dalam kumpulan data. Ini menunjukkan jumlah sel kosong dibandingkan dengan sel dengan data. Selain itu, rasio pengisian yang lebih tinggi berarti kumpulan data yang lebih lengkap.
18. Distribusi data
Distribusi data mengukur kemunculan nilai tertentu dalam suatu kolom. Hal ini sangat berguna untuk kolom yang diindeks dan bertindak sebagai proksi untuk kualitas data. Namun, jika sebaran data menyimpang dari norma, hal ini dapat mengindikasikan kemungkinan adanya masalah pada sumber data.
19. Permintaan perayap data
Permintaan adalah permintaan HTTP ke server untuk mengambil konten. Perayap kemudian membuat serangkaian permintaan untuk memuat dan berinteraksi dengan halaman web guna mengekstrak data yang diperlukan. Selanjutnya, permintaan konten dilayani oleh server atau gagal, yang menunjukkan adanya kesalahan.
tim ke-20
Tim mengacu pada sekelompok pengguna yang termasuk dalam akun yang sama. Tim dapat memiliki peran yang berbeda, mis. B. Manajer tim atau pemirsa. Manajer tim memiliki hak administratif dan akses ke semua proyek di akun, sedangkan pemirsa memiliki hak terbatas dan akses hanya ke proyek tambahan tertentu.
Akhirnya
Selami glosarium komprehensif istilah web scraping Grepsr, yang dirancang untuk memberi Anda pengetahuan yang Anda perlukan untuk unggul dalam ekstraksi data. Secara keseluruhan, web scraping adalah teknik yang ampuh untuk mengekstraksi data dari situs web, dan memahami terminologi terkait sangatlah penting. Oleh karena itu, glosarium ini memberikan daftar istilah lengkap untuk membantu Anda menavigasi dunia web scraping dengan percaya diri.
Oleh karena itu, Anda dapat menggunakan web scraping secara efektif dalam proyek berbasis data baik sebagai pengguna pemula maupun berpengalaman dengan pemahaman yang jelas tentang istilah-istilah ini.