Pendekatan model kecil bisa lebih efektif

Model bahasa kecil lebih dapat diandalkan dan aman daripada rekan -rekan mereka yang besar, terutama karena mereka menarik informasi dari dataset yang dibatasi. Berharap untuk melihat lebih banyak chatbot yang berjalan pada alternatif ramping ini dalam beberapa bulan mendatang.
Setelah peluncuran luas model bahasa besar Openai (LLM) pada akhir 2022, banyak perusahaan teknologi besar lainnya mengikutinya – dengan kecepatan yang menunjukkan bahwa mereka tidak jauh di belakang dan sebenarnya telah bekerja selama bertahun -tahun untuk mengembangkan program kecerdasan buatan generatif mereka sendiri (Genai) menggunakan bahasa alami.
Apa yang mengejutkan tentang berbagai program Genai yang tersedia saat ini adalah betapa miripnya mereka. Mereka semua pada dasarnya bekerja dengan cara yang sama: model yang berisi miliaran parameter terlatih dalam pada dataset besar yang terdiri dari konten yang tersedia di internet.
Setelah dilatih, model pada gilirannya menghasilkan konten – dalam bentuk teks, gambar, suara dan video – dengan menggunakan statistik untuk memprediksi string kata, piksel atau suara mana yang paling mungkin terjadi pada prompt. “Tapi metode ini datang dengan risiko,” kata Nicolas Flammarion, yang menjalankan teori Laboratorium Pembelajaran Mesin EPFL. “Sebagian besar konten yang tersedia secara online beracun, berbahaya atau tidak benar. Itulah sebabnya pengembang harus mengawasi dan memperbaiki model mereka dan menambahkan beberapa filter.”
Bagaimana menghindari tenggelam dalam informasi
Cara hal -hal yang saat ini berdiri, LLMS telah menciptakan situasi suboptimal di mana mesin yang ditempatkan di pusat data yang luas berkisar melalui miliaran byte data – mengonsumsi sejumlah besar energi dalam proses – untuk menemukan sebagian kecil data yang relevan dengan prompt yang diberikan. Seolah -olah menemukan jawaban atas pertanyaan, Anda harus membalik semua buku di halaman Perpustakaan Kongres demi halaman sampai Anda menemukan jawaban yang benar.
Para peneliti sekarang mengeksplorasi cara -cara memanfaatkan kekuatan LLM sambil membuatnya lebih efisien, aman dan ekonomis untuk beroperasi. “Salah satu metode adalah membatasi sumber data yang dimasukkan ke dalam model,” kata Martin Rajman, seorang dosen dan peneliti EPFL tentang AI. “Hasilnya adalah model bahasa yang sangat efektif untuk aplikasi yang diberikan dan tidak berusaha untuk mendapatkan jawaban untuk segalanya.”
Di sinilah model bahasa kecil (SLM) masuk. Model semacam itu bisa kecil dalam berbagai cara, tetapi, dalam konteks ini, ukuran biasanya mengacu pada dataset yang mereka ambil. Istilah teknis untuk ini adalah Generasi Pengambilan-Agung (RAG). EPFL's Meditron memberikan contoh bagaimana hal ini dapat diterapkan dalam praktik: modelnya bergantung secara eksklusif pada dataset medis yang andal dan diverifikasi.
Keuntungan dari pendekatan ini adalah mencegah penyebaran informasi yang salah. Triknya adalah mengimplementasikan kumpulan data terbatas dengan chatbots yang dilatih pada model besar. Dengan begitu, chatbot dapat membaca informasi dan menautkan berbagai bit bersama untuk menghasilkan respons yang bermanfaat.
Beberapa kelompok penelitian EPFL sedang mengeksplorasi potensi SLM. Salah satu proyek adalah Meditron, sementara yang lain adalah uji coba yang sedang dilakukan berdasarkan Polylex, repositori aturan dan kebijakan online Polylex. Dua proyek lain sedang mencari cara untuk meningkatkan bagaimana rekaman kelas ditranskripsikan sehingga mereka dapat diindeks lebih andal, dan merampingkan beberapa proses administrasi sekolah.
Lebih murah untuk digunakan
Karena SLM mengandalkan kumpulan data yang lebih kecil, mereka tidak membutuhkan daya pemrosesan dalam jumlah besar – beberapa di antaranya bahkan dapat beroperasi di smartphone. “Keuntungan penting lainnya dari SLMS adalah mereka berfungsi dalam sistem tertutup, yang berarti informasi pengguna masuk ke prompt dilindungi,” kata Rajman. “Itu tidak seperti ChatGPT, di mana jika Anda memintanya untuk menuliskan rapat dan menulis menit, misalnya – sesuatu yang dapat dilakukan oleh model dengan cukup baik – Anda tidak tahu bagaimana informasi tersebut akan digunakan. Itu disimpan di server yang tidak dikenal, meskipun beberapa informasi dapat berupa rahasia atau termasuk data pribadi.”
SLM memiliki semua kemampuan yang berjalan chatbot dari model besar dan datang dengan risiko yang jauh lebih sedikit. Itu sebabnya bisnis semakin tertarik pada teknologi, baik untuk kebutuhan internal mereka atau untuk digunakan dengan pelanggan mereka. Chatbots yang dirancang untuk aplikasi tertentu dapat sangat berguna dan sangat efektif, dan ini telah mendorong perusahaan teknologi di seluruh dunia untuk terburu -buru versi mereka ke pasar.
2023 mungkin menjadi tahun ketika LLMS – dengan semua kekuatan dan kelemahan mereka – menjadi berita utama, tetapi 2025 bisa menjadi tahun ketika rekan -rekan mereka yang lebih kecil, disesuaikan, dan sepenuhnya dapat dipercaya mencuri perhatian. ?
Meditron, contoh terkemuka industri EPFL
Hal pertama yang sebagian besar dari kita lakukan ketika kita mengalami ruam kulit, nyeri betis yang tidak dapat dijelaskan atau diresepkan obat baru, misalnya, adalah online. Beberapa orang menjalankan pencarian internet standar, sementara yang lain lebih suka berkomunikasi dengan program Kecerdasan Buatan Generatif (Genai), mencari penjelasan yang meyakinkan atau memicu kecenderungan hipokondria mereka. Tetapi diagnosis yang diajukan oleh model bahasa besar generalis – seperti yang digunakan oleh ChatGpt dan Claude – diambil dari sumber -sumber tidak jelas yang berisi semua jenis data, menimbulkan pertanyaan tentang keandalannya.
Solusinya adalah mengembangkan model yang lebih kecil yang ditargetkan lebih baik, lebih efisien dan diumpankan dengan data terverifikasi. Itulah tepatnya yang dilakukan para peneliti di EPFL dan Yale School of Medicine untuk industri perawatan kesehatan-mereka telah mengembangkan program yang disebut Meditron yang saat ini merupakan model bahasa open-source yang berkinerja terbaik di dunia untuk kedokteran. Itu diperkenalkan lebih dari setahun yang lalu dan, ketika diuji pada ujian medis yang diberikan di AS, itu menjawab lebih akurat daripada rata -rata manusia dan menghasilkan respons yang masuk akal untuk beberapa pertanyaan. Meskipun Meditron tidak dimaksudkan untuk menggantikan dokter, itu dapat membantu mereka membuat keputusan dan menetapkan diagnosis. Manusia akan selalu memiliki keputusan akhir.
Program ini dibangun di atas model bahasa besar meta llama terbuka. Apa yang membedakan Meditron adalah telah dilatih pada data medis yang dipilih dengan cermat. Ini termasuk literatur peer-review dari basis data akses terbuka seperti PubMed dan kumpulan pedoman praktik klinis yang unik, termasuk yang dikeluarkan oleh ICRC dan organisasi internasional lainnya, yang mencakup sejumlah negara, wilayah dan rumah sakit.
“Basis akses terbuka ini mungkin merupakan aspek terpenting dari Meditron,” kata Prof. Annie Hartley dari Laboratorium untuk Teknologi Kesehatan Global dan Kemanusiaan yang cerdas (Cahaya), yang diselenggarakan bersama oleh EPFL dan Yale. Ini dapat diunduh ke smartphone dan beroperasi di area jarak jauh di mana ada sedikit atau tidak ada akses internet. Berbeda dengan kotak hitam yang dikembangkan oleh perusahaan besar, Meditron transparan, dan menjadi lebih baik setiap kali digunakan. “Program ini dalam pengembangan terus -menerus,” kata Hartley. “Salah satu kekuatannya adalah termasuk data dari daerah yang sering kurang terwakili.”
Untuk memastikan program ini dapat digunakan seluas mungkin dan secara akurat mencerminkan kondisi dunia nyata, pengembangnya meluncurkan inisiatif di mana para profesional medis dari seluruh dunia diminta untuk menguji model dalam pengaturan klinis yang sebenarnya dan mengajukan pertanyaan yang menantang. “Fakta bahwa para profesional ini mengajukan diri mereka secara sukarela di komunitas open-source kami untuk secara mandiri memvalidasi Meditron adalah pengakuan atas nilainya,” kata Hartley. Martin Jaggi, kepala laboratorium pembelajaran mesin dan optimasi EPFL, menambahkan: “Tidak ada yang mungkin terjadi dengan model tertutup yang dikembangkan oleh perusahaan teknologi besar.”
Langkah lain menuju kedokteran yang dipersonalisasi
Peneliti lain sedang mencari peningkatan kualitas data yang diumpankan ke model bahasa. Emmanuel Abbé, yang memegang kursi ilmu data matematika di EPFL, sedang melaksanakan satu proyek seperti itu dengan Rumah Sakit Universitas Lausanne (CHUV) untuk membantu mencegah serangan jantung. Tujuannya adalah untuk mengembangkan sistem AI yang dapat menganalisis gambar dari angiogram – visualisasi jantung dan pembuluh darah – dan membandingkannya dengan yang ada dalam database untuk memperkirakan risiko henti jantung pasien. Abbé dan kelompok penelitiannya berencana untuk melakukan studi kohort besar di Swiss yang melibatkan setidaknya 1.000 peserta selama tiga tahun ke depan untuk mengumpulkan data untuk melatih model mereka.
Aplikasi semacam itu juga dapat membawa kita selangkah lebih dekat ke obat yang dipersonalisasi. “Saya melihat potensi besar dalam menggabungkan hasil model ini dengan sejarah medis pasien dan data yang dikumpulkan oleh jam tangan pintar dan aplikasi terkait kesehatan lainnya,” kata Olivier Crochat, direktur eksekutif Pusat EPFL untuk Digital Trust. “Tapi kita harus memastikan sistem yang kuat ada untuk melindungi data yang sangat sensitif ini dan memastikan mereka digunakan secara etis dan adil.” – Amb
Referensi
Artikel ini diterbitkan dalam edisi Maret 2025 Ukuran, Sebuah majalah EPFL yang menampilkan penelitian mutakhir melalui serangkaian artikel mendalam, wawancara, potret, dan sorotan berita. Diterbitkan empat kali setahun dalam bahasa Inggris dan Prancis, dapat dikirim ke siapa saja yang ingin berlangganan serta berkontribusi anggota EPFL Alumni Club. Ini juga didistribusikan secara gratis di kampus EPFL.