Openai mengatakan Deepseek mungkin telah memanen datanya secara tidak benar

Gada Saragih January 29, 2025

0 2 minutes read

Openai mengatakan sedang meninjau bukti bahwa deepseek start-up Cina memecahkan ketentuan layanannya dengan memanen sejumlah besar data dari teknologi AI-nya.

Start-up yang berbasis di San Francisco, yang sekarang bernilai $ 157 miliar, mengatakan bahwa Deepseek mungkin telah menggunakan data yang dihasilkan oleh teknologi openai untuk mengajarkan keterampilan yang sama dengan sistemnya sendiri.

Proses ini, yang disebut distilasi, adalah umum di seluruh bidang AI. Tetapi ketentuan layanan Openai mengatakan bahwa perusahaan tidak mengizinkan siapa pun untuk menggunakan data yang dihasilkan oleh sistemnya untuk membangun teknologi yang bersaing di pasar yang sama.

“Kami tahu bahwa kelompok -kelompok di RRC secara aktif bekerja untuk menggunakan metode, termasuk apa yang dikenal sebagai distilasi, untuk mereplikasi model USAI canggih,” kata juru bicara Openai Liz Bourgeois dalam pernyataan yang diemail ke New York Times, merujuk pada Republik Rakyat Tiongkok.

“Kami mengetahui dan meninjau indikasi bahwa Deepseek mungkin telah menyaring model kami secara tidak tepat, dan akan berbagi informasi seperti yang kami ketahui lebih banyak,” katanya. “Kami mengambil penanggulangan yang agresif dan proaktif untuk melindungi teknologi kami dan akan terus bekerja sama dengan pemerintah AS untuk melindungi model yang paling mampu dibangun di sini.”

Deepseek tidak segera menanggapi permintaan komentar.

Deepseek menakuti perusahaan teknologi Silicon Valley dan mengirim pasar keuangan AS ke tailspin awal pekan ini setelah merilis teknologi AI yang sesuai dengan kinerja hal lain di pasar.

Kebijaksanaan yang berlaku adalah bahwa sistem yang paling kuat tidak dapat dibangun tanpa miliaran dolar dalam chip komputer khusus, tetapi Deepseek mengatakan telah menciptakan teknologinya menggunakan sumber daya yang jauh lebih sedikit.

Seperti perusahaan AI lainnya, Deepseek membangun teknologinya menggunakan kode komputer dan data yang dikorbankan dari seluruh internet. Perusahaan AI sangat bersandar pada praktik yang disebut Sumber Terbuka, dengan bebas berbagi kode yang menopang teknologi mereka – dan menggunakan kembali kode yang dibagikan oleh orang lain. Mereka melihat ini adalah cara mempercepat pengembangan teknologi.

Mereka juga membutuhkan data online dalam jumlah besar untuk melatih sistem AI mereka. Sistem ini mempelajari keterampilan mereka dengan menunjukkan pola dalam teks, program komputer, gambar, suara dan video. Sistem terkemuka mempelajari keterampilan mereka dengan menganalisis hampir semua teks di internet.

Distilasi sering digunakan untuk melatih sistem baru. Jika perusahaan mengambil data dari teknologi hak milik, praktik ini mungkin bermasalah secara hukum. Tetapi sering diizinkan oleh teknologi open source.

Openai sekarang menghadapi lebih dari selusin tuntutan hukum yang menuduhnya secara ilegal menggunakan data Internet yang dilindungi hak cipta untuk melatih sistemnya. Ini termasuk gugatan yang diajukan oleh New York Times terhadap Openai dan mitranya Microsoft.

Gugatan itu berpendapat bahwa jutaan artikel yang diterbitkan oleh Times digunakan untuk melatih chatbots otomatis yang sekarang bersaing dengan outlet berita sebagai sumber informasi yang dapat diandalkan. Baik Openai dan Microsoft menyangkal klaim tersebut.

Laporan Times juga menunjukkan bahwa OpenAI telah menggunakan teknologi pengenalan suara untuk menuliskan audio dari video YouTube, menghasilkan teks percakapan baru yang akan membuat sistem AI lebih pintar. Beberapa karyawan Openai membahas bagaimana langkah seperti itu mungkin bertentangan dengan aturan YouTube, tiga orang dengan pengetahuan tentang percakapan mengatakan.

Tim Openai, termasuk presiden perusahaan, Greg Brockman, menyalin lebih dari satu juta jam video YouTube, kata orang -orang. Teks-teks tersebut kemudian dimasukkan ke dalam sistem yang disebut GPT-4, yang secara luas dianggap sebagai salah satu model AI paling kuat di dunia dan merupakan dasar dari versi terbaru chatbot chatgpt.

Source link

Gada Saragih January 29, 2025

0 2 minutes read