Yapay Zeka

Google'ın TurboQuant Teknolojisi Yapay Zeka Bellek İhtiyacını 6 Kat Azaltıyor

25.03.2026
67 OKUNMA
@tomshardware.com
Google'ın TurboQuant Teknolojisi Yapay Zeka Bellek İhtiyacını 6 Kat Azaltıyor

Google'dan Bellek Tasarrufunda Büyük Adım

Google Research, büyük dil modellerinin (LLM) bellek tüketimini ciddi oranda düşüren yeni bir teknoloji olan TurboQuant'ı duyurdu. Bu yeni algoritma, modelin doğruluk payından hiçbir ödün vermeden KV (Key-Value) önbelleklerini 3 bite kadar sıkıştırabiliyor. Nvidia H100 grafik işlemcilerinde yapılan testlerde, 4 bitlik TurboQuant'ın sıkıştırılmamış 32 bitlik anahtarlara kıyasla işlem performansını 8 kata kadar artırdığı gözlemlendi. Aynı zamanda KV önbellek bellek ihtiyacı da en az 6 kat azaldı.

KV Önbellek Darboğazına Çözüm

Büyük dil modelleri, her kelime üretim adımında verileri yeniden hesaplamamak için daha önce işlenmiş dikkat (attention) verilerini KV önbelleklerinde saklar. Ancak bağlam pencereleri büyüdükçe bu önbellekler sistemler için devasa bir bellek darboğazı haline gelir. Geleneksel vektör sıkıştırma yöntemleri önbellek boyutunu küçültse de, sıkıştırılmış verilerin yanında saklanması gereken sabitler nedeniyle fazladan bellek yükü oluşturur. TurboQuant, bu ek yükü tamamen ortadan kaldıran iki aşamalı bir süreç sunuyor.

İki Aşamalı Sıkıştırma Süreci

TurboQuant'ın başarısının arkasında iki temel teknoloji yatıyor:

  • PolarQuant: Veri vektörlerini standart Kartezyen koordinatlardan kutupsal koordinatlara dönüştürür. Açılara ve büyüklüğe ayrılan veriler sayesinde, geleneksel yöntemlerin ihtiyaç duyduğu maliyetli normalizasyon adımı atlanır.
  • QJL (Quantized Johnson-Lindenstrauss): İkinci aşamada devreye giren bu 1 bitlik hata düzeltme katmanı, artık kuantizasyon hatalarını daha düşük boyutlu bir alana yansıtır. Bu sayede dikkat puanı hesaplamalarındaki sistematik sapmalar neredeyse sıfır maliyetle giderilir.

Geniş Çaplı Testlerde Üstün Başarı

Google, bu algoritmayı Gemma ve Mistral gibi açık kaynaklı modeller kullanarak LongBench, Needle In A Haystack ve ZeroSCROLLS gibi çeşitli uzun bağlamlı testlerde değerlendirdi. TurboQuant, bilgi geri çağırma görevlerinde kusursuz puanlar alırken bellek kullanımını en az altı kat sıkıştırmayı başardı. Soru-cevap, kod üretimi ve özetleme gibi görevleri kapsayan LongBench testlerinde ise mevcut rakiplerini geride bıraktı.

Eğitim veya İnce Ayar Gerektirmiyor

Araştırmacılar Amir Zandieh ve Vahab Mirrokni tarafından geliştirilen TurboQuant'ın en büyük avantajlarından biri, önceden herhangi bir eğitim veya ince ayar (fine-tuning) gerektirmemesi. Çalışma zamanında ihmal edilebilir bir yük oluşturan algoritma, büyük ölçekli vektör arama sistemleri ve üretim aşamasındaki yapay zeka çıkarımları için oldukça uygun bir yapı sunuyor. Bu yenilikçi çalışma, önümüzdeki ay düzenlenecek olan ICLR 2026 konferansında detaylı olarak sunulacak.

Yorumlar

Düşüncelerinizi paylaşmak ve tartışmaya katılmak için giriş yapın.

Yorumlar yükleniyor...