Setiap kali Anda menyebutkan tentang web scraping, Anda dijamin akan mendapatkan tanggapan yang beragam.
Sebagian orang menyukai web scraping, sebagian lainnya membencinya.
Para pencinta akan menunjukkan bagaimana menggunakan data web dapat membuat dunia menjadi tempat yang lebih baik dan lebih produktif. Sedangkan para pembenci akan menunjukkan bahaya yang ditimbulkan oleh web scraping.
Terlepas dari pandangan Anda tentang etika web scraping, argumen ini hampir selalu bermuara pada satu pertanyaan:
"Apakah web scraping legal?"
Dengan adanya kasus hukum terkenal seperti LinkedIn vs HiQ yang membawa pertanyaan ini ke dalam sorotan, kami memutuskan untuk menulis panduan ini untuk memisahkan hasrat dari fakta dan menguraikan kapan web scraping legal, dan kapan ilegal di tahun 2022.
Penafian : Saya bukan pengacara Anda, dan komentar ini semata-mata didasarkan pada pengalaman kami bekerja dengan ribuan klien untuk mengikis web, silakan cari bantuan hukum jika Anda ragu tentang proyek khusus Anda.
Daftar Isi
Apakah Web Scraping Legal?
Beberapa orang membuat pernyataan umum yang mengatakan bahwa web scraping adalah legal atau ilegal. Pernyataan-pernyataan ini sering kali didasarkan pada insentif mereka sendiri. Baik itu web scraper sendiri yang berpendapat bahwa web scraping sangat legal atau pengacara perusahaan dan perusahaan anti-bot yang berpendapat sebaliknya.
Sebenarnya, tidak ada jawaban ya atau tidak yang mudah untuk pertanyaan ini.
Hal ini sangat tergantung pada situasi tertentu dan definisi web scraping yang Anda gunakan. Di sini kami mendefinisikan web scraping secara sederhana sebagai proses pengumpulan data dari seluruh internet. Mengikis data dari situs web lain adalah bagian yang berguna dan penting dari banyak operasi analisis data yang sah. Scraping data web itu sendiri tidak ilegal, tetapi bisa jadi ilegal (atau berada di area abu-abu) tergantung pada tiga hal berikut:
- Jenis data yang Anda kikis
- Bagaimana Anda berencana untuk menggunakan data yang telah dikikis
- Bagaimana Anda mengekstrak data dari situs web
Nomor 1 & 2 lebih jelas, jadi kita akan mulai dari sini sebelum membahas nomor 3, yang paling sulit.
Jenis Data Apa Saja yang Ilegal Untuk Dikikis?
Baik itu data e-commerce, data pribadi atau artikel, jenis data yang Anda kikis dan bagaimana Anda berencana untuk menggunakannya bisa sangat berpengaruh pada legalitasnya.
Tanpa diketahui banyak orang, kasus penggunaan akhir dari data sering kali memiliki dampak yang signifikan pada apakah data tersebut legal atau tidak untuk dikikis.
Kadang-kadang scraping sebuah situs web bisa saja legal, tetapi cara Anda menggunakan data bisa membuatnya ilegal.
Dua jenis data yang perlu kita khawatirkan:
- Data Pribadi
- Data Berhak Cipta
Jika data yang Anda kikis tidak cocok dengan salah satu dari yang di atas maka Anda secara umum aman.
Tipe Data #1: Data Pribadi
Data pribadi, atau informasi yang dapat diidentifikasi secara pribadi (PII) seperti yang dikenal secara teknis, adalah data apa pun yang dapat digunakan untuk secara langsung atau tidak langsung mengidentifikasi individu tertentu.
Dengan diperkenalkannya GDPR pada tahun 2018, Undang-Undang Privasi Konsumen California dan kemarahan yang menyertai skandal seperti campur tangan Cambridge Analytica dalam Pemilihan Presiden AS tahun 2016, masalah data pribadi telah menjadi topik hangat dan salah satu yang harus diketahui oleh setiap pengikis web.
Setiap yurisdiksi hukum memiliki peraturan yang berbeda yang mengatur data pribadi, namun secara umum, di yurisdiksi dengan undang-undang privasi konsumen terbaru (Uni Eropa, California, dll.), adalah ilegal bagi perusahaan untuk mendapatkan, menyimpan, dan/atau menggunakan data pribadi seseorang tanpa persetujuan mereka atau tanpa alasan yang sah untuk melakukannya.
Jenis data pribadi meliputi:
- Nama
- Nomor Telepon
- Alamat
- Nama Pengguna
- Alamat IP
- Tanggal Lahir
- Info Ketenagakerjaan
- Info Bank atau Kartu Kredit
- Data Medis
- Data Biometrik
Dalam sebagian besar kasus (perolehan prospek, intelijen penjualan, dll.), saat mengikis data pribadi dari situs web, Anda tidak memiliki izin dari pemilik data (orang yang datanya Anda kikis) untuk mengikis datanya dan sangat sulit untuk membantah bahwa Anda memiliki salah satu dari alasan yang sah untuk melakukannya:
- Persetujuan - subjek data menyetujui kami memiliki data mereka.
- Kontrak - data pribadi diperlukan untuk pelaksanaan kontrak dengan subjek data.
- Kepatuhan - yang diperlukan untuk memenuhi kewajiban hukum.
- Kepentingan Vital, Kepentingan Umum, atau Otoritas Resmi - biasanya hanya berlaku untuk badan-badan yang dikelola negara di mana akses ke data pribadi adalah untuk kepentingan publik.
- Bunga yang Sah - yang diperlukan untuk kepentingan sah kami.
Akibatnya, dalam banyak kasus, mengikis data pribadi warga negara Uni Eropa atau California dapat mengakibatkan pengikisan web Anda dianggap ilegal.
Jika Anda tidak mengekstrak data pribadi apa pun, atau hanya data pribadi warga negara non-Uni Eropa atau California, maka Anda mungkin aman untuk terus melakukan scraping.
Tipe Data #2: Data Berhak Cipta
Jenis data kedua yang perlu Anda waspadai dalam melakukan scraping adalah data yang memiliki hak cipta.
Data berhak cipta adalah data yang dimiliki oleh bisnis dan individu dengan kontrol eksplisit atas reproduksi dan pengambilannya.
Seperti penggunaan gambar dan lagu berhak cipta, hanya karena data tersebut tersedia untuk umum di internet bukan berarti legal untuk di-screenshot tanpa persetujuan pemiliknya. Anda bisa saja melanggar hak cipta pemiliknya dengan mengambil data mereka.
Hal ini umumnya berlaku untuk jenis data web berikut ini:
- Artikel
- Video
- Gambar
- Cerita
- Musik
- Basis data
Mengikis data berhak cipta itu sendiri tidaklah ilegal, namun apa yang Anda rencanakan untuk dilakukan dengan data berhak cipta itulah yang berpotensi membuatnya ilegal.
Satu orang bisa saja mengambil artikel berhak cipta dan sah-sah saja untuk melakukannya, namun orang lain bisa saja mengambil artikel yang sama dan dianggap melanggar hak cipta pemiliknya.
Hal ini benar-benar tergantung pada bagaimana Anda berencana untuk menggunakan data setelah Anda mengikis data.
- Dapatkah Anda memperdebatkan penggunaan yang adil? Alih-alih mereplikasi artikel secara penuh, Anda berencana untuk menggunakan cuplikan dari artikel asli.
- Dapatkah Anda berargumen bahwa data tersebut faktual, oleh karena itu tidak memiliki hak cipta? Fakta-fakta seperti nama produk, harga, fitur, dan lain-lain tidak tercakup dalam undang-undang hak cipta, sehingga Anda bisa berargumen bahwa data yang akan Anda kikis adalah data yang faktual.
Namun, aspek yang lebih rumit dalam hukum hak cipta adalah masalah hak basis data . Basis data adalah kumpulan materi yang terorganisir yang memungkinkan pengguna untuk mencari dan mengakses setiap bagian informasi yang terkandung di dalam materi tersebut.
Ini berarti bahwa bisa jadi ilegal untuk mengikis basis data lengkap dari web dan kemudian mereproduksinya persis untuk tujuan Anda sendiri.
Sekali lagi, AS dan Uni Eropa memiliki peraturan yang berbeda tentang apa yang dimaksud dengan basis data dan perlindungan hukum apa yang mereka berikan kepada pemilik basis data. Jadi, penting untuk memahami peraturan dan regulasi untuk yurisdiksi hukum tempat Anda melakukan penggalian.
Risiko melanggar hak basis data seseorang dapat dikurangi dengan mengubah cara data dikikis dan digunakan. Dua tips ini membantu memastikan Anda melakukan etis pengikisan data dengan data berhak cipta:
- Hanya mengorek sebagian data yang tersedia;
- Jangan mereplikasi struktur organisasi dari basis data asli;
Oke, sejauh ini kita telah membahas jenis data apa saja yang ilegal untuk di-scrape, dan telah melihat bagaimana rencana Anda untuk menggunakan data yang di-scrape dapat memengaruhi legalitasnya.
Selanjutnya, kami akan menjawab isu yang paling diperdebatkan tentang legalitas web scraping: bagaimana Anda mengekstrak data dari situs web .
Apakah Web Scraping Itu Sendiri Ilegal?
Cukup mudah untuk menentukan apakah scraping data pribadi atau hak cipta akan membuat web scraping Anda ilegal karena ada hukum yang jelas yang menetapkan apa yang legal dan apa yang ilegal.
Hal ini menjadi jauh lebih rumit ketika menyangkut tindakan web scraping itu sendiri karena tidak ada pemerintah yang secara eksplisit melegalkan atau tidak melegalkan web scraping. Sebagai gantinya, kita harus berpatokan pada keputusan-keputusan dari tuntutan hukum antara web scraper dan pemilik situs web. Yang mana ada banyak:
Untuk menyebutkan beberapa di antaranya.
Masalah utama dari semua kasus ini adalah pertanyaan apakah Persyaratan Layanan yang tercantum pada banyak situs web yang melarang web scraping (atau akses otomatis) dapat ditegakkan secara hukum. Tentu saja, dengan situs web yang mengizinkan web scraping, tidak ada masalah.
Meskipun kasus-kasus tentang topik web scraping telah berjalan dua arah, pada tahun 2021 pengadilan mulai mengklarifikasi legalitas pengikisan data untuk web scraper.
Yang terbaru, HiQ vs LinkedIn, menemukan bahwa mengikis data dari sebuah situs web tidak melanggar undang-undang anti peretasan selama data tersebut bersifat publik dan pengikis tidak secara eksplisit menyetujui syarat dan ketentuan situs web sebelumnya.
Artinya, selama data tersedia untuk umum di sebuah situs web, dan tidak mengharuskan web scraper untuk masuk dan secara eksplisit menerima syarat dan ketentuan dari situs web tersebut, maka web scraper memiliki hak untuk mengikis data yang tersedia untuk umum.
Jadi, bagaimana hal ini mempengaruhi web scraper?
Jika Anda melakukan scraping pada sebuah situs web, maka Anda perlu mengajukan pertanyaan-pertanyaan ini untuk menentukan apakah situs web tersebut legal atau tidak:
- Apakah data tersedia untuk umum? Jika data tidak disembunyikan di balik login, maka syarat dan ketentuan situs web tidak dapat diberlakukan, sehingga Anda dapat mengikis data publik secara legal.
- Apakah Anda perlu membuat akun dan masuk untuk mengakses data? Jika ini masalahnya, maka Anda perlu memeriksa syarat dan ketentuan yang Anda setujui saat membuat akun, karena dengan menyetujuinya, Anda membuatnya dapat ditegakkan secara hukum.
Banyak situs web menyertakan dalam Syarat dan Ketentuan mereka (yang Anda setujui ketika Anda membuat akun dengan situs mereka) bahwa mereka melarang Anda untuk mengais konten dari situs mereka. Jadi sebagai aturan praktis, Anda harus selalu berasumsi bahwa masuk ke sebuah situs dan melakukan scraping adalah ilegal kecuali Anda telah memeriksa S&K mereka.
Itulah mengapa di ScraperAPI kami melarang pengguna kami untuk mengikis data dari balik login.
Pemeriksaan Kewarasan Penggalian Web Hukum Anda Sendiri
Jadi begitulah, kita telah membahas semua masalah utama yang menentukan legalitas web scraping Anda. Dalam sebagian besar kasus yang kami lihat, apa yang ingin dilakukan oleh perusahaan untuk melakukan scraping adalah legal.
Namun, kami selalu menyarankan mereka untuk memeriksa ulang rencana mereka untuk memastikan bahwa mereka melakukan web scraping yang legal dan etis dengan tiga pemeriksaan sederhana ini:
- Apakah saya mengorek data pribadi?
- Apakah saya mengikis data yang dilindungi hak cipta?
- Apakah saya mengorek data dari balik login?
Jika jawaban Anda untuk ketiga pertanyaan ini adalah "Tidak", maka web scraping Anda legal.
Namun, jika Anda menjawab "Ya" pada salah satu dari mereka, maka Anda harus mengambil langkah mundur dan melakukan tinjauan hukum penuh terhadap scraping web Anda untuk memastikan Anda tidak melakukan scraping web secara ilegal.