AI Model tidak dapat memberi tahu waktu atau membaca kalender, studi mengungkapkan

Penelitian baru telah mengungkapkan serangkaian tugas lain yang dapat dilakukan kebanyakan manusia dengan mudah kecerdasan buatan (AI) tersandung – Membaca jam analog atau mencari tahu hari di mana tanggal akan jatuh.
AI mungkin dapat menulis kode, menghasilkan gambar seperti hidup, membuat teks yang terdengar manusia dan bahkan lulus ujian (untuk berbagai tingkat keberhasilan) Namun secara rutin salah mengartikan posisi tangan pada jam sehari -hari dan gagal pada aritmatika dasar yang dibutuhkan untuk tanggal kalender.
Para peneliti mengungkapkan kelemahan yang tidak terduga ini dalam presentasi di Konferensi Internasional 2025 tentang Representasi Pembelajaran (ICLR). Mereka juga menerbitkan temuan mereka 18 Maret di server pracetak arxivjadi mereka belum ditinjau oleh rekan sejawat.
“Kebanyakan orang dapat mengatakan waktu dan menggunakan kalender sejak usia dini. Temuan kami menyoroti kesenjangan yang signifikan dalam kemampuan AI untuk melaksanakan keterampilan yang cukup mendasar bagi orang -orang,” kata penulis utama Study Rohit Saxenaseorang peneliti di University of Edinburgh, kata dalam sebuah pernyataan. Kekurangan ini harus diatasi jika sistem AI berhasil diintegrasikan ke dalam aplikasi dunia nyata yang peka terhadap waktu, seperti penjadwalan, otomatisasi, dan teknologi bantuan. “
Untuk menyelidiki kemampuan pencegahan AI, para peneliti memasukkan set data khusus jam dan gambar kalender ke dalam berbagai model bahasa multimodal besar (MLLM), yang dapat memproses informasi visual serta tekstual. Model yang digunakan dalam penelitian ini termasuk Meta's Llama 3.2-Vision, soneta Claude-3.5 Anthropic, Google Gemini 2.0 dan Openai GPT-4O.
Dan hasilnya buruk, dengan model tidak dapat mengidentifikasi waktu yang tepat dari gambar jam atau hari dalam seminggu untuk tanggal sampel lebih dari separuh waktu.
Terkait: AI saat ini memodelkan 'jalan buntu' untuk kecerdasan tingkat manusia, para ilmuwan setuju
Namun, para peneliti memiliki penjelasan untuk kemampuan membaca waktu yang sangat buruk AI.
“Sistem awal dilatih berdasarkan contoh berlabel. Pembacaan jam membutuhkan sesuatu yang berbeda – penalaran spasial,” kata Saxena. “Model ini harus mendeteksi tangan yang tumpang tindih, mengukur sudut dan menavigasi beragam desain seperti angka Romawi atau dial bergaya. Ai mengakui bahwa 'ini adalah jam' lebih mudah daripada benar -benar membacanya.”
Tanggal terbukti sama sulitnya. Ketika diberi tantangan seperti “hari apa hari ke -153 dalam setahun?,” Tingkat kegagalan juga tinggi: sistem AI membaca jam dengan benar hanya 38,7% dan kalender hanya 26,3%.
Kekurangan ini juga mengejutkan karena aritmatika adalah landasan dasar komputasi, tetapi seperti yang dijelaskan Saxena, AI menggunakan sesuatu yang berbeda. “Aritmatika sepele untuk komputer tradisional tetapi tidak untuk model bahasa besar. AI tidak menjalankan algoritma matematika, ia memprediksi output berdasarkan pola yang dilihat dalam data pelatihan,” katanya. Jadi sementara itu dapat menjawab pertanyaan aritmatika dengan benar beberapa waktu, penalarannya tidak konsisten atau berbasis aturan, dan pekerjaan kami menyoroti kesenjangan itu. “
Proyek ini adalah yang terbaru dalam penelitian yang berkembang yang menyoroti perbedaan antara cara AI “memahami” versus cara manusia. Model memperoleh jawaban dari pola yang akrab dan unggul ketika ada cukup contoh dalam data pelatihan mereka, namun mereka gagal ketika diminta untuk menggeneralisasi atau menggunakan penalaran abstrak.
“Apa yang bagi kami adalah tugas yang sangat sederhana seperti membaca jam mungkin sangat sulit bagi mereka, dan sebaliknya,” kata Saxena.
Penelitian ini juga mengungkapkan masalah yang dimiliki AI ketika dilatih dengan data terbatas – dalam hal ini fenomena yang relatif jarang seperti tahun lompatan atau perhitungan kalender yang tidak jelas. Meskipun LLMS memiliki banyak contoh yang menjelaskan lompatan bertahun -tahun sebagai sebuah konsep, itu tidak berarti mereka membuat koneksi yang diperlukan diperlukan untuk menyelesaikan tugas visual.
Penelitian ini menyoroti perlunya contoh yang lebih ditargetkan dalam data pelatihan dan kebutuhan untuk memikirkan kembali bagaimana AI menangani kombinasi penalaran logis dan spasial, terutama dalam tugas yang tidak sering ditemui.
Di atas segalanya, itu mengungkapkan satu area lagi di mana output AI terlalu banyak datang pada bahaya kami.
“AI sangat kuat, tetapi ketika tugas mencampur persepsi dengan penalaran yang tepat, kita masih membutuhkan pengujian yang ketat, logika fallback, dan dalam banyak kasus, manusia dalam lingkaran,” kata Saxena.