Teknoloji

OpenAI, sadece 15 saniyelik bir ses verisinden klonlama yapıyor!

Yayınlandı -

4 ay önce

Nisan 1, 2024

OpenAI kısa bir süre önce Voice Engine adlı yeni bir aracın küçük ölçekli bir ön izlemesini gerçekleştirdiğini duyurdu. Bu, 15 saniyelik bir ses örneğini analiz ederek herhangi bir konuşmacıyı taklit edebilen bir ses klonlama teknolojisidir. Şirket, “duygusal ve gerçekçi sesler” ile “kulağa doğal gelen konuşma” ürettiğini söylüyor.

Teknoloji, şirketin önceden var olan metinden konuşmaya API’sine dayanıyor ve 2022’den beri üzerinde çalışılıyor. OpenAI, mevcut metinden konuşmaya API’sinde ve Sesli Okuma özelliğinde bulunan önceden ayarlanmış sesleri güçlendirmek için araç setinin bir sürümünü zaten kullanıyor. Şirketin resmi blogunda bir dizi örnek var ve sesler ürkütücü bir şekilde gerçeğe yakın. Onları dinlemenizi ve hem iyi hem de kötü olasılıkları hayal etmenizi öneririm.

OpenAI, bu teknolojinin okuma yardımı, dil çevirisi ve ani veya dejeneratif konuşma koşullarından muzdarip olanlara yardımcı olmak için yararlı olduğunu düşündüklerini söylüyor. Şirket, bir okul projesi için kaydedilen seslerden bir Ses Motoru klonu oluşturarak konuşma bozukluğu sorunları olan bir hastaya yardımcı olan bir Brown Üniversitesi pilot programını gündeme getirdi.

Potansiyel faydalarına rağmen, kötü niyetli kişilerin bu teknolojiyi kötüye kullanarak ciddi bir deepfake maskaralığına girişecekleri kesin, ki bu zaten bir sorun. Bunu akılda tutarak, Voice Engine tam olarak kullanıma sunulmadan önce karşılanması gereken ciddi gizlilik endişeleri olduğundan, prime time için tam olarak hazır değildir.

OpenAI bu teknolojinin “ciddi riskler taşıdığını ve özellikle seçim yılında bu risklerin daha da arttığını” kabul ediyor. Şirket, ürünün en az riskle piyasaya sürülmesini sağlamak için “hükümet, medya, eğlence, eğitim, sivil toplum ve ötesinden ABD’li ve uluslararası ortaklardan” gelen geri bildirimleri bir araya getirdiğini söylüyor. Tüm önizleme test katılımcıları, OpenAI’nin rızası ya da yasal hakkı olmadan başka bir bireyin kimliğine bürünmeyi yasaklayan kullanım politikalarını kabul etti.

Buna ek olarak, bu teknolojiyi kullanan herkes seslerin yapay zeka tarafından üretildiğini izleyicilerine açıklamak zorunda kalacak. OpenAI, herhangi bir sesin kaynağını izlemek için filigranlama ve sistemin nasıl kullanıldığına dair “proaktif izleme” gibi güvenlik önlemleri uyguladı. Ürün resmi olarak piyasaya sürüldüğünde, tanınmış kişilere çok benzeyen yapay zeka tarafından oluşturulmuş konuşmacıları tespit eden ve engelleyen bir “kullanılmayacak ses listesi” olacak.

Yeni Kitap / D&R

Bu sunumun ne zaman gerçekleşeceğine gelince, OpenAI ağzını sıkı tutmaya devam ediyor. TechCrunch bazı potansiyel fiyatlandırma verilerini ortaya çıkardı ve görünüşe göre ElevenLabs gibi bu alandaki rakiplerin altında kalacak. Voice Engine bir milyon karakter başına 15 dolara mal olabilir, bu da yaklaşık 162.500 kelimeye denk geliyor. Bu da Stephen King’in The Shining kitabının uzunluğuna denk geliyor. Bir sesli kitabı tamamlamak için kesinlikle bütçe dostu bir yol gibi görünüyor. Pazarlama materyalleri ayrıca iki kat daha pahalı olan “HD” versiyona da atıfta bulunuyor, ancak şirket bunun nasıl çalışacağını detaylandırmadı.

OpenAI bu hafta büyük hamleler yaptı. “Stargate” adlı yapay zeka tabanlı bir süper bilgisayar inşa etmek için en yakın arkadaşı Microsoft ile yeni bir ortaklık kurduğunu duyurdu. The Information’a göre projenin 100 milyar dolara mal olacağı bildiriliyor.

İlgili İçerikler:TEKNOLOJİ

Bir Sonraki İçerik

Bazı Spotify planları daha pahalı olacak!

Bir Önceki İçerik

X, ‘ifade özgürlüğü hakkını’ desteklemek için Jack Dorsey’s Block’a karşı açılan bir davayı finanse ediyor!

OKUMAYA DEVAM EDİN

66 PIXEL

OpenAI, sadece 15 saniyelik bir ses verisinden klonlama yapıyor!

Bunları da Beğenebilirsin!