Teknologi

Devs open source melawan crawler ai dengan kepintaran dan pembalasan

AI Web Crawling Bots adalah kecoak internet, banyak pengembang perangkat lunak percaya. Beberapa dev telah mulai melawan dengan cara yang cerdik, seringkali lucu.

Sementara situs web mana pun mungkin ditargetkan oleh perilaku crawler yang buruk – Terkadang mencatat situs – Pengembang open source “terpengaruh secara tidak proporsional”, menulis Niccolò Venerandi, pengembang desktop Linux yang dikenal sebagai plasma dan pemilik blog pustakawan.

Pada dasarnya, situs -situs yang menampung proyek -proyek bebas dan open source (FOSS) berbagi lebih banyak infrastruktur mereka di depan umum, dan mereka juga cenderung memiliki sumber daya yang lebih sedikit daripada produk komersial.

Masalahnya adalah bahwa banyak bot AI tidak menghormati file robot robot.txt robot robot, alat yang memberi tahu bot apa yang tidak dirayapi, yang awalnya dibuat untuk bot mesin pencari.

Dalam “menangis untuk meminta bantuan” Posting Blog Pada bulan Januari, pengembang FOSS XE IASO menggambarkan bagaimana AmazonBot tanpa henti ditumbuk di situs web server git ke titik menyebabkan pemadaman DDOS. Server Git menampung proyek FOSS sehingga siapa pun yang ingin dapat mengunduh kode atau berkontribusi padanya.

Tapi bot ini mengabaikan robot.txt Laso, bersembunyi di balik alamat IP lainnya, dan berpura -pura menjadi pengguna lain, kata Laso.

“Sia -sia untuk memblokir bot crawler AI karena mereka berbohong, mengubah agen pengguna mereka, menggunakan alamat IP perumahan sebagai proksi, dan banyak lagi,” keluh Laso.

“Mereka akan mengikis situs Anda sampai jatuh, dan kemudian mereka akan mengikisnya lagi. Mereka akan mengklik setiap tautan pada setiap tautan di setiap tautan, melihat halaman yang sama berulang -ulang. Beberapa dari mereka bahkan akan mengklik tautan yang sama beberapa kali dalam detik yang sama,” tulis pengembang di pos.

Masukkan Dewa Graves

Jadi IASO melawan dengan kepintaran, membangun alat bernama Anubis.

Anubis adalah Pemeriksaan Bukti Kerja Proxy Terbalik Itu harus diteruskan sebelum permintaan diizinkan untuk menekan server git. Ini menghalangi bot tetapi memungkinkan melalui browser yang dioperasikan oleh manusia.

Bagian yang lucu: Anubis adalah nama dewa dalam mitologi Mesir yang menuntun orang mati untuk menghakimi.

“Anubis menimbang jiwamu (hati) dan jika itu lebih berat dari bulu, hatimu dimakan dan kamu, seperti, Mega mati,” kata Iaso kepada TechCrunch. Jika permintaan web memberikan tantangan dan bertekad menjadi manusia, gambar anime yang lucu mengumumkan kesuksesan. Gambarnya adalah “pendapat saya tentang anubis antropomorfisasi,” kata IASO. Jika itu bot, permintaan ditolak.

Proyek bernama masak telah menyebar seperti angin di antara komunitas Foss. Laso membagikannya di github Pada 19 Maret, dan hanya dalam beberapa hari, ia mengumpulkan 2.000 bintang, 20 kontributor, dan 39 garpu.

Pembalasan sebagai Pertahanan

Popularitas instan Anubis menunjukkan bahwa rasa sakit IASO tidak unik. Faktanya, Venerandi berbagi cerita demi cerita:

  • CEO Pendiri SourceHut Drew Devault dijelaskan Menghabiskan “dari 20-100% dari waktu saya dalam minggu tertentu meringankan perayap LLM yang sangat agresif dalam skala,” dan “mengalami lusinan pemadaman singkat per minggu.”
  • Jonathan Corbet, seorang pengembang foss terkenal yang mengelola situs berita industri Linux LWN, memperingatkan bahwa situsnya adalah diperlambat oleh lalu lintas tingkat DDOS “Dari AI Scraper Bots.”
  • Kevin Fenzi, Sysadmin dari Proyek Linux Fedora yang sangat besar, kata bot pengikis ai Telah menjadi sangat agresif, ia harus memblokir seluruh negara Brasil dari akses.

Venerandi memberi tahu TechCrunch bahwa dia tahu beberapa proyek lain yang mengalami masalah yang sama. Salah satunya “harus sementara waktu melarang semua alamat IP Cina pada satu titik.”

Biarkan itu meresap sejenak – bahwa pengembang “bahkan harus beralih ke melarang seluruh negara” hanya untuk menangkis bot AI yang mengabaikan file robot.txt, kata Venerandi.

Selain menimbang jiwa pemohon web, para pengembang lain percaya pembalasan adalah pertahanan terbaik.

Beberapa hari yang lalu di Berita peretaspengguna xyzal ROBOT LOADING yang disarankan.txt halaman terlarang dengan “beban ember artikel tentang manfaat minum pemutih” atau “artikel tentang efek positif menangkap campak pada kinerja di tempat tidur.”

“Pikirkan kita perlu membidik bot untuk mendapatkan nilai utilitas _negative_ dari mengunjungi perangkap kita, bukan hanya nilai nol,” jelas Xyzal.

Seperti yang terjadi, pada bulan Januari, seorang pencipta anonim yang dikenal sebagai “Aaron” merilis alat bernama Nepenthes Itu bertujuan untuk melakukan hal itu. Itu menjebak perayap di labirin tanpa akhir dari konten palsu, tujuan yang diakui dev ARS Technica agresif jika tidak benar -benar jahat. Alat ini dinamai tanaman karnivora.

Dan Cloudflare, mungkin pemain komersial terbesar yang menawarkan beberapa alat untuk menangkis AI Crawlers, pekan lalu merilis alat serupa yang disebut AI Labyrinth.

Ini dimaksudkan untuk “memperlambat, membingungkan, dan menyia -nyiakan sumber daya crawler AI dan bot lain yang tidak menghormati arahan 'tidak merangkak',” yang dijelaskan Cloudflare di posting blognya. Cloudflare mengatakan itu memberi makan perayap yang berperilaku buruk “konten yang tidak relevan daripada mengekstraksi data situs web Anda yang sah.”

Devault SourceHut mengatakan kepada TechCrunch bahwa “Nepenthes memiliki rasa keadilan yang memuaskan untuk itu, karena memberi makan omong kosong bagi para perayap dan meracuni sumur mereka, tetapi pada akhirnya Anubis adalah solusi yang berhasil” untuk situsnya.

Tetapi Devault juga mengeluarkan permohonan publik yang menyentuh hati untuk perbaikan yang lebih langsung: “Harap berhenti melegitimasi LLM atau generator gambar AI atau kopilot github atau tempat sampah ini. Saya memohon Anda untuk berhenti menggunakannya, berhenti membicarakannya, berhenti membuat yang baru, berhenti saja.”

Karena kemungkinan itu adalah zilch, pengembang, khususnya di Foss, melawan dengan kepintaran dan sentuhan humor.

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button