Bu hafta teknoloji gündemini sarsan konulardan biri, Çin merkezli yapay zeka şirketi DeepSeek oldu. Wall Street’ten sektör uzmanlarına kadar herkesin ilgisini çeken belirleyici bir rakam, 6 milyon dolar oldu.
DeepSeek, yeni yapay zeka modeli için yayınladığı makalede, toplam eğitim maliyetinin 5,576 milyon dolar olduğunu açıkladı. Bu maliyet, Nvidia’nın grafik işlemcilerinin (GPU) kiralama ücretlerine dayandırılarak hesaplandı. Şirket, bu tutarın yalnızca modelin “resmî eğitimi”ni kapsadığını ve yeni mimari, algoritma veya veri ile ilgili önceki araştırma ve deneme çalışmalarının masraflarının bu hesaba dahil edilmediğini de belirtti.
Haftanın başında, DeepSeek’in “AI Asistanı”, Apple’ın App Store’unda ABD’de en çok indirilen ücretsiz uygulama unvanını ele geçirerek, OpenAI’nin ChatGPT’sini geride bıraktı. Bu durum, küresel teknoloji hisselerinde bir satış dalgasına yol açtı; özellikle çip üreticisi Nvidia ve Broadcom’un piyasa değeri Pazartesi günü toplamda 800 milyar dolar azaldı.
CNBC’nin haberine göre, yarı iletken sektörüne odaklanan araştırma ve danışmanlık firması SemiAnalysis, DeepSeek’in harcamalarına dair ekstra bilgiler sundu. Rapor, DeepSeek’in donanım harcamasının şirket tarihinin hiç olmadığı kadar yüksek olduğunu ve 500 milyon doları önemli ölçüde aştığını açıkladı. Ayrıca, bu raporda, araştırma-geliştirme (Ar-Ge) maliyetlerinin yanı sıra “sentetik veri” üretimi için dahi önemli miktarda işlem gücüne ihtiyaç duyulduğu vurgulandı.
Bunun yanı sıra, raporda Anthropic’in Claude 3.5 Sonnet modelinin eğitiminde “on milyonlarca dolar” harcandığı ve Anthropic’in Amazon ve Google’dan milyarlarca dolarlık yatırım aldığı not edildi. Bu durum, yapay zeka modellerinin geliştirilmesi için gereken devasa kaynakları gözler önüne serdi. SemiAnalysis, yüksek maliyetlerin nedenlerini “yeni yapılar denemek, veri toplamak ve temizlemek, çalışanların maaşlarını ödemek ve çok daha fazlası” olarak sıraladı.
DeepSeek’in makalesinde ise şirketin işlem gücüne ne kadar harcadığına dair bir tahmin yer almamakta. Şirketin, bu konuda yapılan yorum taleplerine henüz bir yanıt vermediği bildirildi.
DeepSeek’in R1 adlı modeli
SemiAnalysis raporunda, “DeepSeek’in bu seviyedeki maliyet ve yeteneklere ulaşması onu benzersiz kılıyor,” değerlendirmesinde bulunuldu. Rapor ayrıca, DeepSeek’in R1 modeli hakkında “çok iyi” ifadesini kullandı ve bu kadar kısa bir sürede akıl yürütme alanında elde edilen başarıyı “nesnel olarak etkileyici” bulduğunu ekledi.
Uzmanlar ve analistler, hafta boyunca DeepSeek’in model kalitesini övdü. Bu başarı, ABD’nin son üç yılda Çin’e yönelik çip ihracatında birçok kısıtlama getirmesine rağmen gerçekleştiği için dikkat çekti. Bu durum, yapay zeka pazarında ABD’nin en büyük rakibi Çin karşısında geri kalıp kalmayacağına dair tartışmaları yoğunlaştırdı.
Bernstein analistleri, Pazartesi günü yaptıkları açıklamada, hafta sonu boyunca bazı “abartılı yorumların” görüldüğünü ancak çoğunun “Bu gerçekten ilginç” düzeyinde kaldığını, bazılarının ise “Mevcut yapay zeka altyapısının sonu geldi” gibi aşırı görüşler içerdiğini aktardı.
DeepSeek, 2023’te kurucu ortakları arasında yer alan Liang Wenfeng tarafından, yapay zeka temelli bir nicel hedge fon olan High-Flyer’ın çatısı altında kuruldu. Çeşitli haberlere göre bu yapay zeka girişimi, Nisan 2023’te bağımsızlaşıp büyük dil modelleri ve yapay genel zeka (AGI) üzerine odaklanmaya başladı. AGI, yapay zekanın insan zekasını pek çok alanda eşitlemesi veya aşması hedefini taşırken, birçok şirketin de vizyonları arasında yer alıyor.
Analistlerin aktardığı bilgilere göre, DeepSeek hâlâ tamamen High-Flyer’a ait ve o tarafından finanse edilmeye devam ediyor.
DeepSeek hakkındaki heyecan, şirketin OpenAI’nin “o1” modeline rakip olarak geliştirdiği R1 akıl yürütme modelinin bu ayın başında piyasaya sürülmesiyle başladı. R1, açık kaynaklı bir model olma özelliği taşıyor, bu durum da herhangi bir yapay zeka geliştiricisinin bu modeli kullanabilmesine olanak tanıyor.
DeepSeek’in chatbot’unun belirli konularda sınırlandırmaları olduğu belirtiliyor; örneğin, Çin lideri Xi Jinping’in politikaları hakkında sorular geldiğinde, benzeri konular başka yönlere kaydırılıyor.
OpenAI CEO’su Sam Altman, DeepSeek’in modelini halka açık alanda övdü. Ancak şirket, DeepSeek’in kendi ürünü için OpenAI verilerini izinsiz bir şekilde kullandığına dair delillere inandıklarını ifade ediyor. Altman, Perşembe günü Washington, D.C.’de OpenAI tarafından düzenlenen bir etkinlikte DeepSeek’in “kesinlikle harika bir model” olduğunu belirtti. Ayrıca, rekabetin ne denli yüksek olduğuna ve “demokratik yapay zeka’nın” kazanması gerektiğine değindi; akıl yürütme ve açık kaynak konularına olan ilginin de son derece büyük olduğuna dikkat çekti.