Sains

Keterampilan diagnostik medis AI masih membutuhkan pemeriksaan

Peneliti Universitas Waterloo Troy Zada ​​(kiri) dan Sirisha Rambhatla. (University of Waterloo)

Anda mungkin ingin berpikir dua kali tentang menggunakan program kecerdasan buatan yang kuat (AI) seperti chatgpt untuk mendiagnosis masalah kesehatan.

Sebuah tim yang dipimpin oleh para peneliti di University of Waterloo menemukan dalam sebuah studi simulasi bahwa ChatGPT-4O, model bahasa besar yang terkenal (LLM) yang dibuat oleh Openai, menjawab pertanyaan diagnostik terbuka yang salah hampir dua pertiga dari waktu.

“Orang -orang harus sangat berhati -hati,” kata Troy Zada, seorang kandidat doktor di Waterloo. “LLMS terus membaik, tetapi saat ini masih ada risiko informasi yang salah.”

Studi ini menggunakan hampir 100 pertanyaan dari pemeriksaan lisensi medis pilihan ganda. Pertanyaan-pertanyaan dimodifikasi menjadi terbuka dan mirip dengan gejala dan kekhawatiran yang mungkin ditanyakan oleh pengguna sungguhan.

Mahasiswa kedokteran yang menilai tanggapan yang ditemukan hanya 37 persen dari mereka benar. Sekitar dua pertiga dari jawaban, apakah secara faktual benar atau salah, juga dianggap tidak jelas oleh penilai ahli dan non-ahli.

Satu pertanyaan melibatkan seorang pria dengan ruam di pergelangan tangan dan tangannya. Pria itu dikatakan bekerja di sebuah pertanian setiap akhir pekan, mempelajari ilmu mortuary, memelihara merpati homing, dan menggunakan deterjen binatu baru untuk menghemat uang.

Chatgpt keliru mengatakan penyebab ruam yang paling mungkin adalah jenis peradangan kulit yang disebabkan oleh deterjen baru. Diagnosis yang benar? Ruamnya disebabkan oleh sarung tangan lateks yang dikenakan pria itu sebagai mahasiswa sains kamar mayat.

“Sangat penting bagi orang untuk menyadari potensi LLM untuk salah bentuk,” kata Zada, yang diawasi oleh Sirisha Rambhatla, asisten profesor ilmu manajemen dan teknik di Waterloo, untuk makalah ini.

“Bahayanya adalah bahwa orang-orang yang mencoba mendiagnosis diri sendiri akan mendapatkan berita yang meyakinkan dan mengabaikan masalah serius atau diberitahu bahwa ada sesuatu yang sangat buruk ketika itu benar-benar tidak perlu dikhawatirkan.”

Meskipun model ini tidak mendapatkan pertanyaan apa pun secara spektakuler atau konyol – dan dilakukan secara signifikan lebih baik daripada versi chatgpt sebelumnya yang juga diuji oleh para peneliti – penelitian ini menyimpulkan bahwa LLMS tidak cukup akurat untuk diandalkan untuk nasihat medis apa pun.

“Ketidakakuratan yang halus sangat memprihatinkan,” tambah Rambhatla, direktur laboratorium ML kritis di Waterloo. “Kesalahan yang jelas mudah diidentifikasi, tetapi nuansa adalah kunci untuk diagnosis yang akurat.”

Tidak jelas berapa banyak orang Kanada yang beralih ke LLM untuk membantu diagnosis medis, tetapi sebuah studi baru-baru ini menemukan bahwa satu-dalam-10 orang Australia telah menggunakan chatgpt untuk membantu mendiagnosis kondisi medis mereka.

“Jika Anda menggunakan LLMS untuk diagnosis sendiri, seperti yang kami duga semakin banyak orang, jangan menerima hasilnya secara membabi buta,” kata Zada. “Pergi ke praktisi perawatan kesehatan manusia masih ideal.”

Tim studi juga termasuk peneliti dalam hukum dan psikiatri di University of Toronto dan Rumah Sakit St. Michael di Toronto.

Studi ini, informasi yang salah medis dalam diagnosis diri sendiri yang dibantu AI: pengembangan metode (evalprompt) untuk menganalisis model bahasa besar, muncul di JMIR Formative Research.

Gambar fitur: gambar tero vesalainen / getty

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button