Massachusetts Teknoloji Enstitüsü (MIT) bünyesinde çalışmalarını sürdüren bir grup bilim insanı, metinden görüntü üretmeye yarayan DALL-E 3 ve Stable Diffusion gibi yapay zekâ araçlarını 30 kata kadar hızlandırmaya yarayan yeni bir framework geliştirdiklerini duyurdular. Bu framework, kullanıcıların mümkün olan en kısa sürede en iyi sonuca ulaşmalarını sağlayacak.
Hâlihazırda kullanılabilir durumda olan metinden görsel üretme araçları, genelde tek seferde çok iyi sonuçlar vermiyorlar. İşte MIT mühendislerinin geliştirdiği yeni framework, tam olarak bu noktaya parmak basıyor. Framework, görüntü üretme sürecini tek bir adımda basitleştirmeye ve daha hızlı görüntü üretmeye odaklanıyor. Hem de bu görüntüler, HD kalitede oluyor.
Peki bu nasıl mümkün oldu?
MIT mühendislerinin “DMD” olarak isimlendirdikleri framework, makine öğrenimi tekniklerinden olan “öğretmen-öğrenci“yi temel alıyor. Bu teknikte hâlihazırda eğitilmiş olan modeller, asıllarını taklit ederek yeni bir model hâline getiriliyorlar. MIT’den Tianwei Yin, bu yöntemle hem görsel kalitesinin artırıldığını hem de mevcut modelin 30 kata kadar hızlandırıldığını ifade etti. Böylelikle kullanıcının tekrar tekrar girdi işlemesine gerek kalmamış olacak.
DMD, görüntü üretmenin çok daha ötesine geçebilir
MIT, DMD’yi metinlerden görsel üretmek için tasarladı ve başarılı sonuçlar elde etti. Ancak bu demek değil ki teknoloji, sadece metinden görsel üretmek için kullanılacak. MIT mühendisleri, bunun tüm yapay zekâ araçlarına uyarlanabileceğine inanıyorlar. Eğer böyle bir şey gerçek olursa DMD, 3 boyutlu modelleme veya ilaç üretimi gibi yüksek hızın daha önemli olduğu alanlarda da kullanılabilir.
Ancak bunun o kadar da kolay olmadığını söyleyelim. Çünkü MIT, DMD teknolojisini önceden eğitilmiş ağlar kullanarak ortaya çıkardılar. Yani zaten var olan teknolojiler, yeniden işlendi. Bu sayede de süreç hızlanmış oldu. DMD’nin daha geniş kapsamlı projelerde kullanılmak istenilmesi, çok daha büyük eğitim setlerine ihtiyaç duyulmasına yol açacaktır.