Kapanpun kamu Pengikisan web Sebutkan dan Anda dijamin mendapat reaksi beragam.
Beberapa orang menyukai web scraping, yang lain membencinya.
Para penggemar akan menunjukkan bagaimana penggunaan data web dapat membuat dunia menjadi tempat yang lebih baik dan produktif. Sebaliknya, para haters akan menunjukkan dampak buruk yang ditimbulkan oleh web scraping.
Terlepas dari pendapat Anda tentang etika web scraping, argumen ini hampir selalu bermuara pada satu pertanyaan:
“Apakah web scraping legal?”
Dengan adanya kasus hukum terkenal seperti LinkedIn vs. HiQ yang menyoroti pertanyaan ini, kami memutuskan untuk menulis panduan ini untuk memisahkan ketertarikan dari fakta dan menguraikan kapan web scraping legal dan ilegal pada tahun 2022.
Penafian : Saya bukan pengacara Anda, dan komentar ini hanya didasarkan pada pengalaman kami bekerja dengan ribuan klien untuk mencari di Internet. Silakan mencari nasihat hukum jika Anda memiliki keraguan tentang proyek Anda sendiri.
Daftar Isi
Apakah pengikisan web legal?
Beberapa orang membuat klaim menyeluruh bahwa web scraping itu legal atau ilegal. Pernyataan ini sering kali didasarkan pada insentif Anda sendiri. Baik itu para pengikis web sendiri yang berpendapat bahwa pengikisan web itu sah, atau pengacara perusahaan dan perusahaan anti-bot yang berpendapat sebaliknya.
Sebenarnya, tidak ada jawaban sederhana ya atau tidak untuk pertanyaan ini.
Itu sangat tergantung pada situasi spesifik dan definisi web scraping yang Anda gunakan. Di sini kami mendefinisikan web scraping secara sederhana sebagai proses pengumpulan data dari seluruh Internet. Mengekstraksi data dari situs web lain adalah bagian yang berguna dan penting dari banyak operasi analisis data yang sah. Pengikisan data web itu sendiri tidak ilegal, namun bisa jadi ilegal (atau berada di area abu-abu) bergantung pada tiga hal berikut:
- Jenis data yang Anda kumpulkan
- Bagaimana Anda berencana menggunakan data yang diretas
- Bagaimana Anda mengekstrak data dari situs web
Nomor 1 dan 2 lebih jelas, jadi kita akan mulai dari sini sebelum membahas nomor 3, yang rumit.
Jenis data apa yang tidak boleh di-scrap?
Baik itu data e-niaga, pribadi, atau barang, jenis data yang Anda tambang dan cara Anda berencana menggunakannya dapat berdampak besar pada legalitasnya.
Banyak yang tidak menyadari bahwa kasus penggunaan akhir data sering kali berdampak signifikan terhadap apakah scraping itu legal atau tidak.
Terkadang merayapi situs web merupakan hal yang legal, namun cara Anda berencana menggunakan data dapat menjadikannya ilegal.
Dua jenis data yang perlu kita khawatirkan:
- Data pribadi
- Data Berhak Cipta
Jika data yang Anda ekstrak tidak cocok dengan salah satu data di atas, secara umum Anda aman.
Tipe Data #1: Informasi Pribadi
Data pribadi, atau Informasi Identifikasi Pribadi (PII), sebagaimana dikenal secara teknis, adalah data apa pun yang dapat digunakan untuk mengidentifikasi orang tertentu secara langsung atau tidak langsung.
Dengan diperkenalkannya GDPR pada tahun 2018, Undang-Undang Privasi Konsumen California, dan kemarahan yang menyertai skandal seperti campur tangan Cambridge Analytica dalam pemilihan presiden AS tahun 2016, topik data pribadi telah menjadi topik hangat yang dibicarakan semua orang tentang kebutuhan pengikis web. untuk menyadari.
Setiap yurisdiksi memiliki aturan berbeda untuk data pribadi. Namun, secara umum, di yurisdiksi yang memiliki undang-undang perlindungan konsumen terbaru (UE, California, dll.), adalah ilegal bagi perusahaan untuk memperoleh, menyimpan, dan/atau menggunakan informasi pribadi seseorang tanpa izin atau tanpa alasan yang sah untuk melakukannya. .
Jenis data pribadi meliputi:
- Nama belakang
- Surel
- Nomor telepon
- alamat
- Nama belakang
- alamat IP
- tanggal lahir
- Informasi Ketenagakerjaan
- Informasi bank atau kartu kredit
- Data medis
- Data biometrik
Dalam sebagian besar kasus (pembuatan prospek, informasi penjualan, dll.), saat mengambil data pribadi dari situs web, Anda tidak mendapat izin dari pemilik data (orang yang datanya Anda ekstrak) untuk mengekstrak datanya, dan sangat sulit untuk membantah bahwa Anda memiliki salah satu alasan sah berikut untuk melakukan hal tersebut:
- Izin - Subjek data telah mengizinkan kami menerima datanya.
- Kontrak - Data pribadi diperlukan untuk pelaksanaan kontrak dengan subjek data.
- Ketaatan - diperlukan untuk memenuhi kewajiban hukum.
- Kepentingan vital, kepentingan publik atau otoritas resmi – Biasanya, hal ini hanya berlaku untuk badan pemerintah yang akses terhadap data pribadinya merupakan kepentingan publik.
- Kepentingan yang sah – diperlukan untuk kepentingan sah kami.
Oleh karena itu, dalam sebagian besar kasus, menghapus data pribadi penduduk UE atau California dapat mengakibatkan web scraping Anda dianggap ilegal.
Jika Anda tidak mengekstrak data pribadi apa pun, atau hanya data pribadi warga negara non-UE atau penduduk California, Anda mungkin aman untuk terus melakukan pengikisan.
Tipe Data #2: Data Berhak Cipta
Jenis data kedua yang perlu Anda perhatikan saat melakukan scraping adalah data berhak cipta.
Data yang dilindungi hak cipta adalah data yang dimiliki oleh perusahaan dan individu yang memiliki kendali eksplisit atas reproduksi dan pengumpulannya.
Seperti halnya penggunaan gambar dan lagu yang dilindungi hak cipta, fakta bahwa data tersebut tersedia untuk umum di Internet tidak berarti bahwa menghapusnya tanpa izin pemiliknya adalah sah. Anda mungkin melanggar hak cipta pemilik dengan menghapus datanya.
Hal ini umumnya berlaku untuk jenis data web berikut:
- Artikel
- video
- Foto-foto
- cerita
- Musik
- Basis Data
Menghapus data berhak cipta itu sendiri bukanlah tindakan ilegal. Hal ini bergantung pada rencana Anda terhadap data berhak cipta yang berpotensi menjadikannya ilegal.
Satu orang dapat menghapus artikel yang dilindungi hak cipta dan melakukannya sepenuhnya secara legal, namun orang lain dapat menghapus artikel yang sama dan mendapati bahwa mereka telah melanggar hak cipta pemiliknya.
Itu sangat tergantung pada bagaimana Anda ingin menggunakan data setelah pengikisan.
- Bisakah Anda memperdebatkan penggunaan wajar? Daripada mereproduksi artikel secara keseluruhan, rencanakan untuk menggunakan cuplikan dari artikel aslinya.
- Dapatkah Anda berargumentasi bahwa data tersebut adalah faktual dan oleh karena itu tidak memiliki hak cipta? Fakta seperti nama produk, harga, fitur, dll. tidak tercakup dalam hak cipta. Jadi Anda bisa berargumen bahwa data yang ingin Anda kumpulkan bersifat faktual.
Namun, aspek yang lebih sulit dalam hak cipta adalah pertanyaannya Hak basis data . Basis data adalah kumpulan materi terorganisir yang memungkinkan pengguna mencari dan mengakses informasi individu yang terkandung dalam materi.
Artinya, mengekstrak seluruh database dari Internet dan kemudian mereproduksinya untuk tujuan Anda sendiri mungkin merupakan tindakan ilegal.
Sekali lagi, AS dan UE memiliki peraturan berbeda mengenai apa yang dimaksud dengan database dan perlindungan hukum apa yang dapat diberikan kepada pemilik database. Oleh karena itu, penting untuk memahami aturan dan regulasi yurisdiksi tempat Anda beroperasi.
Risiko pelanggaran hak basis data individu dapat dikurangi dengan mengubah cara pengumpulan dan penggunaan data. Berikut adalah dua tips untuk memastikan Anda melakukan pengikisan data etis pada data kepemilikan:
- Kikis hanya sebagian dari data yang tersedia.
- Jangan meniru struktur organisasi database asli.
Oke, sejauh ini kita telah membahas jenis data apa yang dapat dikikis secara ilegal dan melihat bagaimana tujuan penggunaan data yang dikikis dapat memengaruhi legalitasnya.
Selanjutnya, kami menjawab pertanyaan paling kontroversial tentang legalitas web scraping: cara mengekstrak data dari situs web .
Apakah web scraping itu sendiri ilegal?
Cukup mudah untuk menentukan apakah pengikisan informasi pribadi atau hak cipta menjadikan pengikisan web Anda ilegal, karena ada undang-undang yang jelas yang menentukan apa yang legal dan apa yang ilegal.
Segalanya menjadi lebih rumit ketika menyangkut web scraping, karena belum ada pemerintah yang mengeluarkan undang-undang yang secara eksplisit melegalkan atau mendelegalkan web scraping. Sebaliknya, kita perlu menjauh dari keputusan pengadilan antara pengikis web dan pemilik situs web. Mereka ada banyak:
Untuk beberapa nama.
Pertanyaan utama dalam semua kasus ini adalah apakah ketentuan layanan yang tercantum di banyak situs web yang melarang web scraping (atau akses otomatis) dapat ditegakkan secara hukum. Tentu saja, tidak ada masalah dengan situs web yang mengizinkan web scraping.
Meskipun kasus web scraping berjalan dua arah, pengadilan akan mulai mengklarifikasi legalitas data scraping untuk web scraper pada tahun 2021.
Studi terbaru, HiQ vs. LinkedIn, menemukan bahwa mengambil data dari situs web tidak melanggar undang-undang anti-peretasan selama data tersebut bersifat publik dan pengikis belum secara eksplisit menyetujui syarat dan ketentuan situs web sebelumnya.
Artinya, selama data tersedia untuk umum di suatu situs web, web scraper mempunyai hak untuk merayapi data yang tersedia untuk umum dan tidak mengharuskan web scraper untuk masuk dan secara tegas menerima persyaratan penggunaan situs web untuk data tersebut.
Bagaimana pengaruhnya terhadap web scraper?
Saat merayapi situs web, Anda perlu menanyakan pertanyaan berikut untuk menentukan apakah situs tersebut legal atau tidak:
- Apakah datanya tersedia untuk umum? Jika data tidak disembunyikan di balik login, syarat dan ketentuan situs tidak dapat diterapkan, sehingga Anda dapat menghapus data publik secara legal.
- Apakah Anda perlu membuat akun dan masuk untuk mengakses data? Jika hal ini terjadi, Anda perlu meninjau syarat dan ketentuan yang Anda setujui saat membuat akun, karena dengan menyetujui Anda telah menjadikannya dapat ditegakkan secara hukum.
Banyak situs web menentukan dalam syarat dan ketentuannya (yang Anda setujui saat membuat akun di situs mereka) bahwa mereka melarang Anda mengambil konten dari situs mereka. Jadi sebagai aturan praktis, Anda harus selalu berasumsi bahwa masuk ke situs web dan melakukan scraping adalah ilegal kecuali Anda telah membaca syarat dan ketentuannya.
Inilah sebabnya di ScraperAPI kami melarang pengguna kami mengekstraksi data setelah login.
Pemeriksaan kewarasan web scraping legal Anda sendiri
Jadi begitulah, kami telah membahas semua pertanyaan penting yang menentukan legalitas web scraping Anda. Dalam kebanyakan kasus, kita melihat bahwa apa yang ingin dihilangkan oleh perusahaan adalah hal yang sepenuhnya sah.
Namun, kami selalu menyarankan mereka untuk memeriksa ulang rencana mereka untuk memastikan mereka melakukan web scraping yang sah dan etis dengan menyelesaikan tiga pemeriksaan sederhana berikut:
- Apakah saya mengumpulkan informasi pribadi?
- Apakah saya menghapus data berhak cipta?
- Apakah saya menghapus data di balik login?
Jika Anda menjawab “tidak” untuk ketiga pertanyaan ini, web scraping Anda sah.
Namun, jika Anda menjawab ya untuk semua pertanyaan ini, Anda harus mengambil langkah mundur dan melakukan tinjauan hukum menyeluruh terhadap web scraping Anda untuk memastikan bahwa Anda tidak merayapi web secara ilegal.