Teknoloji devi Apple, büyük dil modellerinin (LLM) geleneksel anlama süreçlerinden farklı olarak işleyen yenilikçi bir dil modeli geliştirdi. Apple'ın geliştirdiği SlowFast-LLaVA-1.5 (SF-LLaVA-1.5) adlı yeni dil modeli, daha küçük boyutlarda bile rakip modelleri geride bırakarak video anlama yeteneğini bir üst seviyeye taşıyor. Böylece Apple, yıllardır geri kaldığı yapay zekâ alanında önemli bir adım atmış oluyor. Bu dil modeli, mevcut modellerin büyük veri setlerine bağımlı olsa da umut vadediyor.

Apple SlowFast-LLaVA Nasıl Çalışıyor?

Büyük dil modellerinin (LLM) videoları anlamlandırma süreci, genellikle her bir kareyi tek tek analiz etmeye dayanıyor. Ancak bu yöntem, çoğu zaman tekrarlayan bilgilerle dolu devasa veri yığınları oluşturuyor ve modelin "bağlam penceresi" adı verilen işlem kapasitesini hızla aşıyor. Yani uzun bir videonun genel içeriğinin tespit edilmesi durumu zorlaşıyor.

Apple araştırmacıları, bu verimsizliğe karşı geliştirdiği SlowFast-LLaVA modelini; "yavaş" ve "hızlı" akış olarak iki bağlamda ayırdı. Yavaş akış, videodan daha az sayıda kareyi seçerek sahnenin detaylarını, yani nesneleri ve genel ortamı anlamaya odaklanıyor. Hızlı akış ise daha sık aralıklarla kareleri tarayarak hareketin ve eylemlerin takibini sağlıyor.

Bu çift akışlı yapı, modelin hem görsel içeriği hem de zamana bağlı dinamikleri eş zamanlı olarak işlemesini sağlıyor. Böylece uzun bağlam pencerelerine bağımlı olan modellerin aksine daha bağımsız ve sınırsız bir model olarak öne çıkıyor.

Tabii Apple modelinin sınırlamaları da bulunuyor. SF-LLaVA-1.5, bir videonun süresi ne olursa olsun en fazla 128 kareyi işleyebiliyor. Apple geliştiricileri, bu sınırlamayı kaldırmak üzerine çalışmalarını sürdürüyor.