Pada Maret 2025, 40 % perusahaan global melaporkan menggunakan intelijen buatan (AI) dalam bisnis mereka. Sementara manfaat yang ditawarkan oleh alat transformasional ini dapat terasa hampir tidak terbatas, kenyataannya adalah bahwa AI tidak secara inheren aman, terutama untuk perusahaan yang berurusan dengan informasi sensitif.
AI dengan cepat menganalisis data dalam jumlah besar untuk mencari tahu pola dan memberikan respons kepada pengguna dalam jumlah waktu sesingkat mungkin. Information apa pun yang dibagikan dengan alat ini akan digunakan untuk melatih version ke depan, menjadikannya tempat yang berbahaya untuk informasi sensitif. Untuk industri yang menangani data yang sangat pribadi, seperti layanan kesehatan atau hukum, menggunakan AI dapat mengambil risiko privasi klien.
AI dirancang untuk dengan cepat menganalisis dataset besar, mendeteksi pola, dan merespons secara real time. Tetapi banyak alat melatih data apa pun yang Anda berikan. Itu berarti berbagi informasi pribadi-secara tidak sengaja atau tidak-dapat menimbulkan risiko jangka panjang, terutama di industri yang diatur seperti perawatan kesehatan, keuangan, atau hukum.
Direktur Global Rekayasa Solusi di Apryse.
Manfaat memanfaatkan information sintetis
AI bekerja paling baik dengan data yang kuat, terstruktur, dan relevan. Kapan pun memungkinkan, dunia nyata Data sangat perfect – tetapi itu tidak selalu menjadi pilihan. Peraturan seperti HIPAA dan GDPR mencegah tim berbagi information pribadi secara eksternal, termasuk dengan model AI. Di situlah data sintetis bersinar.
Anda akan sering melihat data sintetis yang digunakan sebagai placeholder – terutama ketika persetujuan hukum atau NDA masih dalam proses. Alih-alih mengulur pengembangan, tim dapat terus bergerak maju dengan data , kemudian beralih ke data produksi nanti untuk memvalidasi hasilnya. Ini membuat proyek terus bergerak sambil tetap patuh.
Dalam kasus lain, data sintetis mengisi celah. Anda mungkin memiliki data nyata, tetapi tidak cukup – atau tidak cukup variasi untuk melatih model Anda dengan benar. Aturan praktis yang baik: Anda akan membutuhkan 10 x lebih banyak sampel information daripada criterion model. Ketika data nyata gagal, data sintetis dapat membantu menambah dan mendiversifikasi collection pelatihan Anda.
Pertimbangan untuk menggunakan information sintetis
Salah satu kesalahpahaman yang umum adalah bahwa data sintetis hanyalah data “palsu”. Namun pada kenyataannya, ini sering didasarkan pada informasi dunia nyata yang telah direstrukturisasi, dianonimkan, atau dihasilkan untuk mencerminkan skenario aktual. Anggap saja seperti simulator penerbangan – penggunaan untuk pelatihan dan persiapan, tetapi tidak sama dengan menerbangkan pesawat sungguhan. Information sintetis dapat membantu tim menguji dan melatih version AI, tetapi tidak boleh dilihat sebagai pengganti lengkap untuk information produksi.
Yang mengatakan, itu memang datang dengan risiko-terutama di sekitar identifikasi ulang. Jika data sintetis dapat ditelusuri kembali ke sumber asli, seluruh premis privasi berantakan. Salah satu langkah paling penting adalah memastikan dataset asli tidak lagi disimpan atau diakses setelah versi sintetis dibuat. Cukup memiliki dua dataset yang berdekatan satu sama lain menciptakan risiko yang tidak perlu.
Tantangan existed adalah outlier. Ini adalah nilai ekstrem atau tidak biasa yang tidak hanya dapat condongkan pelatihan model tetapi juga berfungsi sebagai petunjuk tentang data asli. Misalnya, jika Anda menghasilkan data perbankan sintetis dan salah satu transaksi adalah untuk $ 10 juta sementara sisanya dalam ratusan, nilai tunggal menjadi suar. Itu adalah masalah pemodelan dan potensi masalah privasi.
Dalam banyak kasus, information sintetis sebagian dapat menawarkan yang terbaik dari kedua dunia. Anda mungkin menggunakan dokumen atau dataset nyata sambil menganonimkan informasi yang dapat diidentifikasi secara pribadi. Misalnya, Anda dapat menyimpan data aesthetic dari sinar-X tetapi mencatat detail seperti nama pasien, fasilitas, atau diagnosis.
Dengan begitu, Anda mempertahankan kompleksitas information tanpa mengekspos informasi sensitif. Akhirnya, sebelum menggunakan dataset sintetis apa word play here dalam suatu proyek, ada baiknya memiliki seseorang di luar tim inti untuk melihat akhir. Perspektif baru dapat membantu melihat apa pun yang Anda lewatkan – apakah itu pengidentifikasi recurring, outlier yang diabaikan, atau tanda -tanda halus bahwa data masih dapat ditelusuri kembali ke orang sungguhan.
Kesimpulan
Menggunakan information sintetis tidak harus semuanya atau tidak sama sekali. Banyak Proyek mendapat manfaat dari pendekatan hibrida – terutama pada fase awal. Dalam balap dunia untuk mengadopsi AI, mudah untuk bergerak cepat dan mengabaikan risikonya. Tetapi pelatihan version yang aman dan bertanggung jawab adalah tanggung jawab semua orang.
Information sintetis bukan hanya solusi – ini adalah jembatan untuk membangun sistem yang aman dan inovatif yang menghormati privasi dan kepatuhan sejak hari pertama.
Kami telah menampilkan design pembelajaran besar terbaik.
Artikel ini diproduksi sebagai bagian dari saluran Wawasan Ahli TechRadarPro di mana kami menampilkan pikiran terbaik dan paling cerdas dalam industri teknologi saat ini. Pandangan yang diungkapkan di sini adalah pandangan penulis dan tidak harus dari TechRadarPro atau Future Plc. Jika Anda tertarik untuk berkontribusi, cari tahu lebih lanjut di sini: