Sains

AI memberikan jawaban yang dapat diandalkan dengan overhead komputasi yang kurang

Algoritma baru dari peneliti meningkatkan model bahasa besar (LLM) sehingga jawaban yang dipilih lebih akurat dan relevan.

Para peneliti telah mengembangkan metode yang membuat respons AI semakin dapat diandalkan. Algoritma mereka secara khusus memilih data yang relevan dengan pertanyaan. Selain itu, bahkan model AI hingga 40 kali lebih kecil mencapai kinerja output yang sama dengan model AI besar terbaik.

Chatgpt dan sama sering membuat kita takjub dengan keakuratan jawaban mereka, tetapi sayangnya, mereka juga berulang kali memberi kita alasan untuk keraguan. Masalah utama dengan mesin respons AI yang kuat (kecerdasan buatan) adalah bahwa mereka memberi kita jawaban yang sempurna dan omong kosong yang jelas dengan kemudahan yang sama. Salah satu tantangan utama terletak pada bagaimana model bahasa besar (LLM) yang mendasari AI berurusan dengan ketidakpastian. Sampai sekarang, sangat sulit untuk menilai apakah LLMS yang dirancang untuk pemrosesan teks dan pembuatan mendasarkan tanggapan mereka pada fondasi data yang kuat atau apakah mereka beroperasi dengan alasan yang tidak pasti.

Para peneliti di Institute for Machine Learning di Departemen Ilmu Komputer di ETH Zurich kini telah mengembangkan metode yang dapat digunakan untuk secara khusus mengurangi ketidakpastian AI. “Algoritma kami dapat memperkaya model bahasa umum AI dengan data tambahan dari bidang subjek yang relevan dari sebuah pertanyaan. Dalam kombinasi dengan pertanyaan spesifik, kami kemudian dapat mengekstrak dari kedalaman model dan dari data pengayaan justru koneksi yang paling mungkin menghasilkan jawaban yang benar,” jelas The Partdy Hübotter dari The Learning Systems, siapa yang baru saja dikembangkan dari The Learning Systems, siapa yang dikembangkan dari The Loarning Hing Hing Hing Hinge dari The Learning,

Memperkaya AI dengan data tertentu

“Metode ini sangat cocok untuk perusahaan, ilmuwan, atau pengguna lain yang ingin menggunakan AI umum di bidang khusus yang hanya dibahas sebagian atau tidak sama sekali oleh data pelatihan AI,” tambah Andreas Krause, kepala kelompok penelitian dan direktur Pusat ETH AI.

Misalnya, pengguna dapat memasukkan data yang disimpan secara lokal ke dalam model bahasa besar (LLM), seperti LLAMA. Algoritma SIFT yang disebut (memilih data informatif untuk fine-tuning), yang dikembangkan oleh para ilmuwan komputer ETH, kemudian dapat menggunakan data tambahan yang disediakan untuk memilih informasi spesifik yang paling dekat terkait dengan pertanyaan.

Vektor hubungan dalam ruang multidimensi

Algoritma menggunakan struktur yang menurutnya informasi bahasa diatur dalam Model Bahasa Besar AI (LLM) untuk menemukan informasi terkait. Model membagi informasi bahasa dalam data pelatihan mereka menjadi bagian kata. Hubungan semantik dan sintaksis antara bagian kata kemudian diatur sebagai panah penghubung – yang dikenal di lapangan sebagai vektor – dalam ruang multidimensi. Dimensi ruang, yang dapat berjumlah ribuan, muncul dari parameter hubungan yang diidentifikasi oleh LLM secara independen selama pelatihan menggunakan data umum.

Sudut antara panah sebagai ukuran korelasi

Panah relasional yang menunjuk ke arah yang sama dalam ruang vektor ini menunjukkan korelasi yang kuat. Semakin besar sudut antara dua vektor, semakin sedikit dua unit informasi berhubungan satu sama lain.

Algoritma SIFT yang dikembangkan oleh para peneliti sekarang menggunakan arah vektor hubungan dari kueri input (prompt) untuk mengidentifikasi hubungan informasi yang terkait erat dengan pertanyaan tetapi pada saat yang sama saling melengkapi dalam hal konten. “Sudut antara vektor sesuai dengan relevansi konten, dan kami dapat menggunakan sudut untuk memilih data spesifik yang mengurangi ketidakpastian,” jelas Hübotter.

Lebih sedikit tumpang tindih dari informasi yang berlebihan

Sebaliknya, metode yang paling umum digunakan hingga saat ini untuk memilih informasi yang cocok untuk jawabannya, yang dikenal sebagai metode tetangga terdekat, cenderung mengakumulasi informasi berlebihan yang tersedia secara luas. Perbedaan antara kedua metode menjadi jelas ketika melihat contoh prompt kueri yang terdiri dari beberapa informasi.

Untuk menjawab pertanyaan dua bagian “Berapa umur Roger Federer dan berapa banyak anak yang dia miliki?”, Metode tetangga terdekat mempertimbangkan informasi serupa seperti “Roger Federer berusia 43 tahun” dan “ulang tahun Roger Federer adalah 8 Agustus 1981” sama-sama relevan. Informasi tentang anak -anaknya, yang relevan untuk bagian kedua dari pertanyaan, terkadang hilang. Ini dilapisi dengan informasi tanggal lahir, yang terjadi jauh lebih sering dalam data pelatihan AI. Algoritma SIFT, bagaimanapun, memperhitungkan sejauh mana potongan -potongan informasi termasuk saling melengkapi, yaitu apakah vektor informasi menunjuk ke arah yang berbeda. Ini memungkinkan informasi yang relevan diidentifikasi untuk kedua aspek pertanyaan.

Jawaban yang lebih dapat diandalkan dengan model yang jauh lebih kecil

Namun, pemilihan informasi yang ditargetkan tidak hanya meningkatkan kualitas tanggapan. Ini juga dapat digunakan untuk mengurangi daya komputasi yang terus meningkat yang dibutuhkan oleh aplikasi AI. Dengan mengukur ketidakpastian secara tidak langsung, model dapat memutuskan sendiri berapa banyak lebih banyak data yang diperlukan untuk memberikan jawaban yang cukup andal. Akibatnya, overhead komputasi yang dibutuhkan oleh LLM dapat secara sistematis disesuaikan dengan kompleksitas pertanyaan dan ketersediaan informasi yang relevan.

Karena SIFT terus mengadaptasi bobot arah panah ke perhitungannya selama pengambilan data, model yang diperkaya menjadi semakin andal semakin banyak digunakan. Ini dikenal sebagai pelatihan waktu tes dan dapat digunakan untuk mencapai kinerja output yang sama dengan model yang lebih kecil. “Dalam pengujian dengan set data standar, kami menggunakan penyetelan SIFT untuk mengungguli bahkan model AI saat ini dengan model hingga 40 kali lebih kecil,” menekankan Hübotter.

Mengidentifikasi nilai tambah dari data yang relevan

Aplikasi tambahan untuk algoritma SIFT dibuka dalam hal evaluasi data, seperti yang dijelaskan Krause: “Kami dapat melacak data pengayaan yang dipilih. Mereka terkait erat dengan pertanyaan dan karenanya sangat relevan dengan bidang subjek ini. Ini dapat digunakan dalam kedokteran, misalnya, untuk menyelidiki analisis laboratorium atau nilai pengukuran mana yang signifikan untuk suatu diagnosis spesifik dan kurang dari itu.”

Hübotter saat ini mempresentasikan pendekatannya di Konferensi Internasional tentang Representasi Pembelajaran (ICLR) di Singapura. Pada bulan Desember para peneliti memenangkan hadiah untuk artikel ilmiah terbaik untuk metode mereka di Konferensi Tahunan Neurips tentang Sistem Pemrosesan Informasi Saraf (NeurIPS) dalam lokakarya “Finetuning in Modern Machine Learning”.

Referensi

Hübotter, J, Bongni, S, Hakimi, I, Krause, A. Efisien belajar pada waktu tes: penyempurnaan aktif LLMS. Dalam: Proc. Konferensi Internasional tentang Representasi Pembelajaran (ICLR), 2025. DOI: https://doi.org/10.48550/arxiv.2410.08020 (publikasi preprint pada arxive)

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button