Membuat AI lebih mudah diakses dalam sepakbola

Teknologi meningkatkan sepak bola – dari membantu wasit membuat keputusan yang lebih akurat untuk mengembangkan taktik di lapangan yang lebih baik. ETH Zurich dan FIFA sedang mengeksplorasi bagaimana AI dapat membuat kemajuan ini lebih mudah diakses oleh kompetisi di seluruh dunia.
Kecerdasan buatan (AI) sudah digunakan dalam sepak bola saat ini, menganalisis gerakan individu dan membantu wasit dengan menilai apakah seseorang sedang offside atau tidak. Teknologi Offside Semi-Automated (SAOT) digunakan oleh Video Assistant Wasit (VAR) untuk membuat keputusan yang lebih adil. Sistem ini bekerja dengan menggunakan pelacakan digital real-time dari gerakan dan posisi pemain.
Sampai sekarang, sistem yang dibantu komputer hanya berada dalam jangkauan kompetisi sepak bola besar. Bagaimanapun, sistem ini kompleks dan mahal: 10 hingga 12 kamera statis yang mencatat aksi dari berbagai sudut diperlukan untuk setiap stadion. “Semua kamera harus disinkronkan dengan sempurna untuk menghasilkan kemiripan digital yang akurat,” kata Tianjian Jiang, kandidat doktor dalam ilmu komputer.

Jiang sedang melakukan penelitian di Lab Teknologi Interaktif Lanjutan (AIT) ETH Zurich. Bersama dengan kolega dari lab, ia membantu FIFA – Federasi Asosiasi Sepak Bola Internasional – Untuk mengeksplorasi solusi teknologi yang akan meningkatkan akses ke AI dalam sepak bola. Gagasan yang mendasari adalah untuk menyederhanakan sistem sedemikian rupa sehingga, daripada beberapa kamera, hanya membutuhkan satu. Lagi pula, setiap kompetisi profesional memiliki kamera yang digunakan untuk merekam dan menyiarkan game. Kamera penyiaran ini berdiri di garis touch dan merupakan sumber hampir tiga perempat dari semua rekaman game yang disiarkan televisi.
Urutan bermain sepenuhnya digital
Masih akan beberapa tahun sebelum analisis video sebuah game bekerja dengan andal hanya dengan satu kamera, tetapi laboratorium AIT sekarang telah membuat langkah yang menentukan ke arah ini. Para peneliti telah sepenuhnya mendigitalkan hampir 50 menit rekaman video dari berbagai game di Piala Dunia FIFA 2022.
Dataset ETH, yang dikenal sebagai posisinya, berisi lebih dari 2,5 juta pose pemain individu dalam tiga dimensi. Oleh karena itu dimungkinkan untuk melacak semua pemain di lapangan, dari kedua tim, pada saat yang sama dan untuk menganalisis di mana mereka berdiri dan apa yang mereka lakukan dengan atau tanpa bola.
Dalam pembelajaran mesin, ini dikenal sebagai estimasi pose. Tidak seperti manusia, komputer tidak dapat melihat dan karenanya bergantung pada data untuk mendeteksi di mana orang atau objek berada dalam ruang dan bagaimana mereka bergerak.

Melalui pelatihan konstan, komputer belajar untuk memproses dan menafsirkan informasi dari data gambar dan video. Visi komputer membutuhkan volume data yang besar, yang dianalisis komputer berulang kali sampai mengidentifikasi perbedaan dan pada akhirnya mendeteksi pola. Algoritma memungkinkan mesin untuk belajar dengan sendirinya alih -alih harus diprogram oleh manusia.
3D hanya dengan satu kamera
Sudah ada algoritma yang dapat menghasilkan objek dan tubuh tiga dimensi langsung dari gambar dua dimensi. Dalam “Estimasi Pose Monokular” (MPE), komputer menggunakan gambar dari satu kamera untuk mendeteksi di mana orang atau objek berada di ruang, bagaimana mereka bergerak dan ke mana. Karena itu, komputer menganalisis pose dan lintasan setiap pemain tanpa informasi mendalam yang akan disediakan oleh kamera 3D atau beberapa kamera.
Metode MPE yang ada sekarang sangat baik dalam memprediksi pose pemain individu. Namun, mereka mengalami kesulitan melacak beberapa orang pada saat yang sama – terutama dalam jarak jauh seperti yang dicakup oleh pemain sepak bola selama 90 menit pertandingan. “Kami ingin menemukan algoritma yang cukup akurat bahkan dalam jarak jauh,” kata Jiang.
Lebih sulit dari yang diharapkan
FIFA mendekati ETH Zurich pada tahun 2021 untuk mencari dataset sehingga komputer dapat dilatih untuk memperkirakan pose. Mereka juga ingin tahu seberapa bagus metode MPE yang ada. Untuk tujuan ini, FIFA memberi para peneliti dengan berbagai urutan video dari Piala Dunia 2022 di Qatar, yang direkam menggunakan kamera yang berbeda (stasioner dan bergerak), serta data lebih lanjut seperti dimensi lapangan bermain yang tepat di dalam stadion individu.
Tugas ini membuat para peneliti sibuk selama tiga tahun – kekekalan di dunia AI yang maju dengan cepat. “Pada awalnya, kami pikir kami akan dengan cepat bisa mendapatkan dataset yang tepat,” kenang Jiang. “Kami sudah memiliki sistem yang dapat mewakili pose dan lintasan justru dalam bentuk digital, dan kami berasumsi bahwa ini akan mudah diterapkan pada rekaman Piala Dunia.”

Mereka segera menyadari bahwa ada perbedaan besar antara hanya mendigitalkan urutan individu dan menerapkan sistem ke dataset yang lebih besar. Misalnya, tantangan teknis termasuk obstruksi pemain, blur gerak dan masalah dengan kalibrasi kamera. Distorsi dari berbagai kamera atau zoom kamera penyiaran juga terbukti rumit.
Garis harus cocok dengan sempurna
Untuk memastikan bahwa para pemain digital akhirnya ditumpangkan dengan tepat di atas para pemain asli, para peneliti pertama -tama harus mengkalibrasi dan membandingkan rekaman video dari berbagai kamera statis stadion – dengan sudut yang berbeda. Kalibrasi berfungsi untuk menentukan sifat spesifik dari setiap kamera, seperti panjang fokus atau ukuran sensor, dan untuk menyesuaikan kamera sehingga mencatat realitas seakurat mungkin. Ini karena setiap kamera menderita distorsi tertentu karena optiknya, seperti ketika datang untuk menggambarkan garis lurus.
Garis referensi digital kemudian ditempatkan di atas gambar kamera sebagai bantuan visual. Hamparan ini menunjukkan seberapa baik kalibrasi berfungsi atau jika masih ada distorsi. “Jika kalibrasi benar, garis bidang digital tumpang tindih dengan yang asli – dari all -green,” kata Jiang.

Komputer kemudian dapat menggunakan parameter yang terkoordinasi secara akurat dari kamera statis untuk memperkirakan pose dan lintasan pemain. Menggunakan model SMPL, yang banyak digunakan dalam penglihatan komputer, tubuh digital diwakili sehingga sedekat mungkin dengan aslinya manusia.
Data ini kemudian digunakan untuk “memberi makan” kamera penyiaran yang dapat dipindahkan, yang juga dikalibrasi – dengan memindahkannya ke segala arah, misalnya, dan memperbesar dan memperkecilnya. Jika data nyata dan digital tumpang tindih dengan benar, sekarang dimungkinkan untuk mewakili posisi yang tepat, lintasan dan pose dari masing -masing pemain di lapangan secara digital dalam tiga dimensi – hanya menggunakan satu kamera.
Zoom mendorong sistem ke batasnya
Menggunakan dataset mereka, para peneliti kemudian dapat membuat perbandingan terperinci apakah kamera tunggal dengan teknologi MPE yang ada dapat mendeteksi pemain dalam posisi offside dengan cukup atau tidak. Dalam studi mereka, yang dipresentasikan pada Konferensi Eropa tentang Visi Komputer di Milan, para ilmuwan komputer menemukan bahwa metode yang ada berjuang dengan dataset baru ini, menyoroti arahan penelitian baru yang potensial.
Estimasi pose dengan hanya satu kamera dapat menentukan pose dan gerakan di ruang kecil dengan tingkat akurasi yang tinggi, bahkan dalam kasus panjang fokus yang panjang atau jika ada jarak jauh antara orang dan kamera. Model MPE juga berkinerja relatif baik dengan urutan gerak individu, tetapi mereka berjuang untuk menentukan posisi relatif dari banyak pemain di ruang yang sama. Zoom masuk dan keluar dengan kamera terbukti sangat menuntut. “Ini mengkonfirmasi kepada kami bahwa banyak penelitian masih diperlukan untuk mencapai sistem yang bekerja dan stabil,” kata Jiang.
Data yang diterbitkan untuk kompetisi
Dengan dataset dorsa yang digunakan, tujuannya sekarang untuk para ilmuwan lain untuk melatih sistem mereka dan mengembangkan algoritma sehingga analisis AI yang akurat dimungkinkan dengan satu kamera bergerak tunggal di masa depan. Untuk tujuan ini, FIFA telah meluncurkan tantangan inovasi. Selain dataset ETH, FIFA juga memberikan urutan video game sepak bola untuk kompetisi penelitian internasional ini, meskipun – kali ini – hanya dari kamera penyiaran.

“Saat kami berbagi data dengan orang lain, ini bisa mempercepat penelitian di bidang ini,” kata Jiang. “Jika model yang memberikan analisis tepat dengan satu kamera suatu hari mencapai kualitas yang sama dengan dataset kami, teknologi ini akan cocok untuk penggunaan yang luas.”
Sejauh ini, lebih dari 150 peneliti di seluruh dunia telah menanggapi pengumuman kompetisi. ETH Zurich juga terus melatih sistemnya. Jiang mengatakan: “Kami akan terus bekerja pada dataset dan mengembangkan model lebih lanjut sendiri.”