Stabilitas AI, dalam kemitraan dengan Chip Designer ARM, diumumkan pada 14 Mei 2025, rilis open-source audio Open Small, sebuah model kecerdasan buatan teks-ke-audio yang kompak dan efisien. Model AI stereo ini secara khusus dioptimalkan untuk berjalan sepenuhnya pada CPU ARM, memungkinkan kemampuan audio generatif secara langsung pada perangkat seperti smartphone tanpa mengandalkan pemrosesan cloud. Rilis ini penting karena bertujuan untuk mendemokratisasi penciptaan audio untuk lebih luas dari pengguna dan aplikasi, sementara terutama menangani masalah kekayaan intelektual dengan dilatih secara eksklusif pada audio bebas royalti.

Model baru, terperinci dalam stabilitas AI pengumuman resmi , menampilkan 341 juta paramer. Kinerja ini dibangun di atas dengan librughy. CEO Stability AI, menyoroti pencapaian sebelumnya ini, menyatakan”Berkat optimasi model ini dan ARM Kleidiai, kami pindah dari menit menjadi beberapa detik untuk menghasilkan audio sepenuhnya pada CPU lengan pada smartphone.”Audio yang stabil saat ini membuka memanfaatkan kemajuan ini, membuatnya dapat diakses tanpa persyaratan perangkat keras yang berat, seperti yang dicatat oleh stabilitas AI.

Komitmen perusahaan terhadap pendekatan etis yang digarisbawahi dengan penggunaan arsip musik gratis dan freesound untuk pelatihan, kontras dengan beberapa pesaing seperti Suno, yang telah menghadapi kandungan cangkir dengan menggunakan kandungan copipis. Stability AI Lisensi Komunitas , dengan bobot model tersedia di face-face”oMLOMA”href=”https://github.com/stability-ai/stable-audio-tools”target=”_ blank”> github , dan makalah penelitiannya yang diterbitkan pada Arm Learning Path is also available to guide developers.

On-Device Audio: Capabilities and Considerations

Audio yang stabil Open Small’s On-Device Processing menawarkan kecepatan dan fungsi offline, pembeda utama dari banyak layanan pembuatan audio yang bergantung pada cloud. Sementara terutama dirancang untuk sampel audio pendek seperti efek suara atau riff musik, stabilitas AI mengakui keterbatasan tertentu. Model ini saat ini hanya mendukung petunjuk bahasa Inggris dan belum dioptimalkan untuk menghasilkan vokal yang sangat realistis atau lagu-lagu lengkap, panjang penuh.

Selanjutnya, seperti yang ditunjukkan dalam dokumentasinya dan dilaporkan oleh TechCrunch, data pelatihan memiliki bias Barat, yang berpotensi berdampak pada kinerjanya di berbagai gaya musik global. Istilah lisensi disusun untuk mendorong adopsi yang luas: gratis untuk para peneliti, penghobi, dan bisnis yang berpenghasilan kurang dari $ 1 juta per tahun. However, larger entities exceeding this revenue will need an enterprise license from Stability AI.

Navigating the AI ​​Audio Landscape and IP Challenges

Stability AI’s decision to train this model exclusively on royalty-free audio sources adalah langkah strategis dalam industri yang semakin berfokus pada hak kekayaan intelektual. Ini kontras dengan alat audio AI lainnya, beberapa di antaranya telah menghadapi tindakan hukum dari label rekaman karena diduga menggunakan musik yang dilindungi hak cipta tanpa otorisasi yang tepat. Dengan menggunakan data berlisensi secara terbuka, stabilitas AI bertujuan untuk memberikan fondasi yang lebih sehat secara hukum bagi pencipta.

Bidang audio AI yang lebih luas adalah dinamis, dengan perusahaan seperti ElevenLabs yang telah meluncurkan alat untuk efek suara pada Juni 2024, menekankan data yang bersumber secara etis melalui kemitraan. Nvidia juga mempresentasikan model audio Fugatto canggih pada November 2024, meskipun belum dirilis secara publik karena kekhawatiran tentang potensi penyalahgunaan, mencerminkan pendekatan yang hati-hati terhadap teknologi generatif yang kuat. More recently, Google introduced its Lyria text-to-music AI model in April, primarily for its enterprise customers, though, as WinBuzzer noted, details about its training datasets were not specified.

Stability AI’s Evolution in Generative Audio

The release of Stable Audio Open Small represents an ongoing evolution of Stability AI’s work in the audio domain, Mengikuti peluncuran awal platform audio stabil Pada bulan September 2023. Iterasi sebelumnya, dikembangkan dengan data dari audiosparx , berfokus pada generasi berbasis cloud. Versi”kecil”baru ini, bagaimanapun, dengan jelas memprioritaskan efisiensi dan penyebaran di perangkat, selaras dengan tren industri menuju EDGE AI.

Peluncuran ini datang sebagai stabilitas AI, yang dikenal dengan difusi stabil generator gambar yang populer, terus menavigasi pasar yang kompetitif. Perusahaan telah mengalami restrukturisasi keuangan dan perubahan kepemimpinan, setelah mengumpulkan uang tunai baru tahun lalu.

Pengenalan model yang dilatih secara etis dan di-perangkat seperti audio stabil terbuka kecil, model pembuatan gambar terbaru lainnya, rilis, menandakan upaya strategis untuk berinovasi dan memperkuat posisi pasarnya. Kombinasi aksesibilitas, kinerja di perangkat, dan yayasan data bebas royalti dapat membuat audio stabil terbuka kecil pilihan yang menarik bagi pengembang dan pencipta.

Categories: IT Info