Yapay zeka dünyayı değiştiriyor ve bunun nasıl olduğunu tanımlamak için tamamen yeni bir dil yaratıyor. Yapay zeka hakkında beş dakika okursanız, LLM’ler, RAG, RLHF gibi kavramlarla karşılaşırsınız. Bu terimler, teknoloji dünyasında pek çok akıllı insanı bile güvensiz hissettirebilir. Bu sözlük, bu durumu düzeltme çabamız. Alan geliştikçe düzenli olarak güncelliyoruz, bu nedenle bunu, açıklamakta olduğu yapay zeka sistemleri gibi yaşayan bir belge olarak düşünün.
Yapay genel zeka ya da AGI, belirsiz bir terimdir. Genellikle, bir AI’nin birçok, hatta çoğu görevde ortalama bir insandan daha yetenekli olduğunu belirtir. OpenAI CEO’su Sam Altman, AGI’yi “bir iş arkadaşınız olarak işe alabileceğiniz ortalama bir insana denk” olarak tanımlamıştır. Öte yandan, OpenAI’ın tüzüğü AGI’yi “insanları çoğu ekonomik olarak değerli işte geride bırakan, yüksek derecede otonom sistemler” olarak tanımlıyor. Google DeepMind ise AGI’yi “insanların çoğu bilişsel görevlerde en az insan kadar yetenekli olan AI” olarak görmekte. Karışık mı? Endişelenmeyin, AI araştırmalarının ön cephesindeki uzmanlar da aynı durumda.
AI ajanı, sizin adınıza birçok görevi yerine getirmek için AI teknolojilerini kullanan bir aracı ifade eder; harcama raporlarından bilet veya restoran rezervasyonu yapmaya, hatta kod yazıp güncellemeye kadar. Daha önce açıkladığımız gibi, bu gelişen alan birçok hareketli parçaya sahip, dolayısıyla “AI ajanı” farklı insanlar için farklı şeyler ifade edebilir. Ancak temel kavram, çok aşamalı görevleri gerçekleştirmek için birden fazla AI sisteminden yararlanabilen otonom bir sistemi ima eder.
API uç noktalarını, başka yazılımların “tıklayarak” işe yarayan “butonlar” olarak düşünün. Geliştiriciler bu arayüzleri, bir uygulamanın başka bir uygulamadan veri çekmesini sağlamak ya da AI ajanının insan müdahalesi olmadan üçüncü parti hizmetleri kontrol etmesine imkan tanımak için kullanır. Çoğu akıllı ev cihazı ve bağlı platform, bu gizli butonlara sahip, ancak sıradan kullanıcılar bunları asla göremez veya etkileşimde bulunamaz. AI ajanları daha yetenekli hale geldikçe, bu uç noktaları kendi başlarına bulup kullanabilme yeteneğine sahip oluyorlar, böylece otomasyon için güçlü ve bazen beklenmedik olasılıklar açılıyor.
Basit bir soruya insan beyni, fazla düşünmeden cevap verebilir; “hangisi daha uzun, bir zürafa mı yoksa bir kedi mi?” gibi. Ancak birçok durumda doğru yanıtı bulmak için kalem ve kağıda ihtiyaç duyarsınız çünkü arada adımlar vardır. Örneğin, bir çiftlikte tavuklar ve inekler varsa ve toplamda 40 baş ve 120 bacak varsa, doğru yanıtı elde etmek için basit bir denklemi yazmanız gerekebilir (20 tavuk ve 20 inek).
AI bağlamında, büyük dil modelleri için düşünce zinciri, bir problemi daha küçük, ara adımlara ayırmayı ifade eder ve bu sayede nihai sonucun kalitesini artırır. Genelde bir cevap almak için daha fazla zaman harcar, ancak özellikle mantık veya kodlama bağlamında doğru olma olasılığı yüksektir. Akıl yürütme modelleri, geleneksel büyük dil modellerinden geliştirilmiş ve pekiştirme öğrenimi sayesinde düşünce zincirine uygun şekilde optimize edilmiştir.
(Bakınız: Büyük dil modeli)
Techcrunch etkinliği
San Francisco, CA
|
13-15 Ekim 2026
Bu, “AI ajanı” kavramından daha spesifik bir kavramdır ve bir hedefi tamamlamak için kendi başına adım adım hareket edebilen bir program anlamına gelir. Kodlama ajanı, yazılım geliştirme için uygulanan özel bir versiyondur. Bir insanın incelemesi ve kopyalaması için sadece kod önerisinde bulunmaktan ziyade, bir kodlama ajanı otonom olarak kod yazabilir, test edebilir ve hata ayıklayabilir; genellikle bir geliştiricinin gününü tüketen yinelemeli deneme-yanılma çalışmalarını üstlenir. Bu ajanlar, tüm kod tabanları üzerinde çalışabilir, hataları tespit edebilir, testleri gerçekleştirebilir ve insan gözetimi ile minimum müdahale ile düzeltmeler yapabilir. Hızlı bir stajyer gibi düşündüğünüzde, hiç uyumayan ve konsantrasyonunu kaybetmeyen birisi olarak düşünebilirsiniz; ancak, herhangi bir stajyerde olduğu gibi, bir insanın hâlâ yapılan işi gözden geçirmesi gerekmektedir.
Biraz çok anlamlı bir terim olmakla birlikte, hesaplama genellikle AI modellerinin çalışabilmesi için gerekli olan hesaplama gücünü ifade eder. Bu tür işleme, AI endüstrisini beslediği için güvenilir güce sahiptir ancak bu, büyük modeller eğitmek ve dağıtmak için gerekli olan donanımları ifade eder; GPU, CPU, TPU gibi donanımlar, modern AI endüstrisinin temel taşlarını oluşturur.
Kendi kendini geliştiren makine öğreniminin bir alt kümesi olan derin öğrenme, çok katmanlı yapay sinir ağı (ANN) yapısına sahip AI algoritmalarını tanımlar. Bu yapılar, daha basit makine öğrenimine dayalı sistemlerle karşılaştırıldığında daha karmaşık ilişkiler kurma yeteneğine sahiptir; örneğin, lineer modeller veya karar ağaçları gibi. Derin öğrenme algoritmalarının yapısı, insan beynindeki nöronların birbirine bağlı yollarından ilham alınarak oluşturulmuştur.
Derin öğrenme AI modelleri, verilerde önemli özellikleri kendiliğinden belirleyebilir; bu nedenle insan mühendislerinin bu verileri tanımlamasına gerek kalmaz. Bu yapı, hata yapmaktan öğrenebilen algoritmaları destekler ve yineleme ve ayarlama süreci aracılığıyla kendi çıktılarının kalitesini artırır. Ancak, derin öğrenme sistemlerinin iyi sonuçlar vermesi için çok sayıda veri noktasına (milyonlarca veya daha fazlası) ihtiyacı vardır. Ayrıca, genellikle daha basit makine öğrenimi algoritmalarına kıyasla eğitilmesi daha uzun sürer; bu nedenle geliştirme maliyetleri de daha yüksek olur.
(Bakınız: Sinir ağı)
Difüzyon, birçok sanat, müzik ve metin üreten AI modellerinin kalbindeki teknolojidir. Fizikten ilham alarak, difüzyon sistemleri verilerin yapısını yavaşça “yıkar” — örneğin, fotoğraflar, şarkılar ve benzeri — gürültü ekleyerek bunu yapar. Fizikte, difüzyon kendiliğinden ve geri döndürülemezdir; kahve içinde dağılmış şeker, küp formuna geri dönemez. Ancak AI’deki difüzyon sistemleri, yok edilen verileri geri kazanmak için bir tür “ters difüzyon” sürecini öğrenmeyi hedefler.
Damıtma ise, büyük bir AI modelinden bilginin çıkarılmasını sağlayan bir tekniktir; bu, “öğretmen-öğrenci” modeli kullanır. Geliştiriciler, bir öğretmen modeline istek gönderir ve çıktıları kaydeder. Cevaplar bazen bir veri seti ile karşılaştırılarak ne kadar doğru oldukları belirlenir. Bu çıktılar ardından öğrenci modelini eğitir; öğrenci model, öğretmenin davranışını taklit etmeye eğitim alır.
Damıtma, minimal damıtma kaybı ile daha büyük bir modelden daha küçük ve daha verimli bir model oluşturmak için kullanılabilir. OpenAI’nın, GPT-4 Turbo’nun daha hızlı bir versiyonu olan modelin geliştirilme sürecinin bir parçası olduğu muhtemeldir.
Tüm AI şirketleri damıtmayı dahili olarak kullanmasına rağmen, bazı AI şirketlerinin öncü modellere yetişmek için bu süreçten yararlandığı da düşünülmektedir. Ancak bir rakipten damıtma, genellikle AI API ve sohbet asistanlarının hizmet şartlarını ihlal eder.
Bu, bir AI modelinin daha önceki eğitim odaklarıyla kıyaslandığında daha belirli bir görev veya alan üzerinde performansını optimize etmek amacıyla yeniden eğitilmesini ifade eder; bu genellikle yeni, spesifik (yani görevi hedefleyen) verilerin beslenmesi yoluyla gerçekleşir.
Pek çok AI girişimi, ticari bir ürün oluşturmak için büyük dil modellerini başlangıç noktası olarak alıyor; ancak daha önceki eğitim döngülerini kendi alan bilgileri ve uzmanlıklarına dayalı olarak ince ayar yaparak hedef sektör veya görev için kullanılabilirliği artırmak için çaba gösteriyorlar.
(Bakınız: Büyük dil modeli [LLM])
GAN, yani Üretici Düşman Ağlar, gerçekçi veri üretimi konusunda önemli gelişmelere temel olan bir makine öğrenimi çerçevesidir; bu sadece sahte imajlar değil, diğer yaratıcı içerikler için de geçerlidir. GAN’lar, bir ağın eğitim verilerinden yararlanarak bir çıktı üretmesi ve bunun diğer modele değerlendirmesi için geçmesi süreçlerini içerir.
İki model, aslında birbirlerini geçmeye çalışacak şekilde programlanmıştır. Üretici çıktısını ayırt edebilmek için düşürücüyü geçmeye çalışırken, ayrıştırıcı ise yapay olarak üretilen verileri tespit etmeye çalışır. Bu yapılandırılmış yarış, AI çıktılarının daha gerçekçi olmasını optimize edebilir; buna ek olarak, insan müdahalesi olmadan gelişebilir. Ancak GAN’lar, daha dar uygulamalarda (örneğin, gerçekçi fotoğraflar veya videolar üretmek gibi) daha iyi çalışırlar, genel amaçlı yapay zeka için değil.
Hallüsinasyon, AI endüstrisinin, yanlış bilgiler üreten AI modelleri için tercih ettiği bir terimidir; bu durum, AI kalitesi için büyük bir sorundur.
Hallüsinasyonlar, genellikle yanıltıcı olan ve gerçek hayatta tehlikeli sonuçlar doğurabilecek GenAI çıktıları üretir (örneğin, zararlı tıbbi tavsiyeler veren sağlık sorguları gibi). Yapay zekanın bilgi uydurmasının sorununun, eğitim verilerindeki boşluklardan kaynaklandığı düşünülüyor. Hallüsinasyonlar, bilgi açıklığı ve yanlış bilgilendirme risklerini azaltma amacıyla daha fazla spesifik ve/veya dikey AI modellerine yönelme ihtiyacını artırıyor.
Çıkarma, bir AI modelinin çalıştırılma sürecidir. Bir modeli serbest bırakarak tahminler yapmasını ya da daha önce görülen verilerden sonuçlar çıkartmasını sağlar. Çıkarma, eğitim olmadan gerçekleşemez; bir model, bu eğitim verisindeki örüntüleri öğrenmeden etkili bir şekilde çıkarım yapamaz.
Birçok türde donanım çıkarım gerçekleştirebilir; bunlar arasında akıllı telefon işlemcilerinden yüksek performanslı GPU’lara ve özel tasarlanmış AI hızlandırıcılarına kadar çeşitlilik gösterir. Ancak hepsi de modelleri eşit derecede iyi çalıştıramaz. Çok büyük modellerin, örneğin bir dizüstü bilgisayar üzerinden tahmin yapması, bulut sunucularında yüksek kaliteli AI yongaları ile yapmaktan çok daha fazla zaman almakta.
[Bakınız: Eğitim]
Büyük dil modelleri, ya da LLM’ler, popüler AI asistanları tarafından kullanılan AI modelleridir; örneğin, ChatGPT, Claude, Google’ın Gemini, Meta’nın AI Llama ve Microsoft Copilot gibi. Bir AI asistanıyla sohbet ettiğinizde, doğrudan ya da farklı araçların yardımıyla, örneğin web tarayıcıları veya kod yorumlayıcılardan yararlanarak sizin isteğinizi işleyen bir büyük dil modeli ile etkileşimde bulunuyorsunuz.
LLM’ler, kelime ve ifadeler arasındaki ilişkiyi öğrenen ve bir dilin temsili, bir tür çok boyutlu kelime haritası oluşturan milyarlarca sayısal parametre (ya da ağırlıklar, aşağıda) ile yapılan derin sinir ağlarıdır.
Bu modeller, milyarlarca kitap, makale ve transkripte bulunan kalıpları kodlayarak oluşturularak geliştirilmektedir. Bir LLM’yi istediğinizde, model komutunuza en uygun kalıbı oluşturarak yanıt verir.
(Bakınız: Sinir ağı)
Bellek önbelleği, bir AI modelinin, kullanıcının sorgusuna yanıt üretme sürecine hız getiren önemli bir süreçtir. Özünde, önbellekleme, çıkarımı daha verimli hale getirmek için tasarlanmış bir optimizasyon tekniğidir. AI, yüksek oktanlı matematiksel hesaplamalarla hareket eder ve bu hesaplamalar her yapıldığında daha fazla güç tüketir. Ön bellekleme, modelin gelecekteki kullanıcı sorguları ve işlemler için belirli hesaplamaları saklayarak yapacağı hesaplamalardaki sayıyı azaltmaya yönelik bir çözümdür. Farklı türde bellek önbellekleri bulunmakla birlikte, daha iyi bilinenlerden birisi KV (veya anahtar-değer) önbellekleme‘dir. KV önbellekleme, dönüştürücü tabanlı modellerde çalışır ve verimliliği artırarak, kullanıcı sorularına yanıt oluşturma süresini ve algoritmik iş gücünü azaltır.
(Bakınız: Çıkarma)
Sinir ağı, derin öğrenmeyi destekleyen çok katmanlı algoritmik yapıdır ve daha geniş kapsamda, büyük dil modellerinin ortaya çıkmasının ardından meydana gelen tüm yaratıcı AI araçlarının temelini oluşturur.
Insanoğlu, veri işleme algoritmaları için tasarım yapısını insan beyninin yoğun bağlı yollarından ilham alarak 1940’lara kadar gitmişken, bu teorinin gücünü gerçekten açığa çıkaran son zamanlardaki grafik işlemci donanımının (GPU’lar) yükselişi olmuştur. Bu yongalar, önceki dönemlerde mümkün olandan çok daha fazla katmana sahip algoritmaların eğitimine uygun hale gelmiştir; bu da sinir ağına dayalı AI sistemlerinin, ses tanıma, otonom yönlendirme ve ilaç keşfi gibi birçok alanda daha iyi performans göstermesine olanak tanımıştır.
(Bakınız: Büyük dil modeli [LLM])
Açık kaynak, temel kodun kamuya açık hale getirildiği yazılım — ya da giderek daha fazla AI modelleri için — anlamına gelir; bu, herkesin kullanması, incelemesi veya değiştirmesi için erişilebilir hale gelir. AI dünyasında, Meta’nın Llama model ailesi belirgin bir örnek oluşturuyor; Linux, işletim sistemlerinde ünlü bir tarihi paraleldir. Açık kaynak yaklaşımları, tüm dünyadaki araştırmacılara, geliştiricilere ve şirketlere, birbirlerinin çalışmalarını üstüne koyarak ilerlemeyi hızlandırma ve kapalı sistemlerin sağladığı güvenlik denetimlerini sağlamada bağımsız bir yol sunar. Kapalı kaynak, kodun özel olduğu anlamına gelir — ürünü kullanabilirsiniz ama nasıl çalıştığını göremezsiniz; OpenAI’nın GPT modellerinde olduğu gibi – kapalı kaynak ile açık kaynak arasındaki önemli bir ayrım, AI endüstrisinde etki yaratmaktadır.
Paralelleştirme, ardışık olarak değil, birçok şeyi aynı anda yapmayı ifade eder; bir projede farklı kısımlar üzerinde çalışan 10 çalışanın olmasının örneği gibi düşünün. AI’de paralelleştirme, hem eğitim hem de çıkarım için temel bir unsurdur: modern GPU’lar, binlerce hesaplamayı paralel olarak gerçekleştirmek için özel olarak tasarlanmıştır ve bu, endüstrinin donanım sırtında önemli bir rol oynamaktadır. AI sistemleri daha karmaşık hale geldikçe ve modeller büyüdükçe, işin birçok çip ve makineye paralel hale getirilmesi, modellerin ne kadar hızlı ve maliyet etkin bir şekilde oluşturulup dağıtılabileceğini belirleyen en önemli faktörlerden biri olmuştur. Daha iyi paralelleştirme stratejileri üzerine yapılan araştırmalar, artık kendi başına bir çalışma alanı haline gelmiştir.
RAMageddon, teknoloji endüstrisinde kaygı verici bir eğilimi tanımak için kullanılan eğlenceli bir terimdir: günlük hayatımızda kullandığımız hemen hemen her teknoloji ürününü destekleyen, rastgele erişim bellek (RAM) yongalarının giderek artan bir eksikliği. Yapay zeka endüstrisi patladıkça, en büyük teknoloji şirketleri ve AI laboratuvarları, en güçlü ve etkili AI’ya sahip olmak için veri merkezlerini desteklemek amacıyla, o kadar çok RAM satın alıyor ki geriye kalan pek bir şey yok. Bu, arz darboğazına neden oluyor ve geriye kalan her şey de giderek daha pahalı hale geliyor.
Bu durum, oyun endüstrisi gibi alanları da kapsar (büyük şirketlerin, daha fazla bellek yongası bulmanın zor olduğu için konsol fiyatlarını artırmak zorunda kaldıkları gibi), tüketici elektroniği (hafıza kesintisi, son on yılın en büyük akıllı telefon sevkiyat düşüşünü gösterebileceği) ve genel kurumsal bilişim (çünkü bu şirketler, veri merkezleri için yeterince RAM almakta zorlanıyor). Fiyat artışlarının durmasının, sadece istenmeyen bu kesintinin sona ermesinden sonra beklenmesi bekleniyor; ancak, ne yazık ki, bunun yakın zamanda gerçekleşeceğine dair pek bir işaret yok.
Pekiştirme öğrenimi, AI’yi bir sistemin, doğru cevaplar için ödüller alarak deneme yaparak öğrenmesine dayanan bir eğitim yöntemidir; bu, sevgili evcil hayvanınızı ödüllerle eğitmek gibidir, ancak bu durumda “evcil hayvan” bir sinir ağı ve “ödül” ise başarıyı gösteren matematiksel bir sinyaldir. Süpervize edilmiş öğrenmeden farklı olarak, burada bir model belirli verilere dayanarak eğitim almadığı için, pekiştirme öğrenimi modeli çevresini keşfetmesine, eylemler gerçekleştirmesine ve aldığı geri bildirimlere dayanarak davranışını sürekli güncellemesine olanak tanır. Bu yaklaşım, özellikle AI’nin oyun oynamayı, robotları kontrol etmeyi ve son zamanlarda büyük dil modellerinin akıl yürütme yeteneğini keskinleştirmesi için eğitimine yardımcı olmak için çok etkili olmuştur. İnsan geri bildiriminden pekiştirme öğrenimi (RLHF) gibi teknikler, lider AI laboratuvarlarının modellerini daha kullanışlı, doğru ve güvenli hale getirmek için ayarlamalarında merkezi bir rol oynamaktadır.
İnsan-makine iletişiminde bazı belirgin zorluklar vardır — insanlar insan dili kullanarak iletişim kurar, AI programları ise verilerden edinilen karmaşık algoritmik süreçlerle görevleri yerine getirir. Token’lar, bu boşluğu kapatan temel bileşenlerdir: bunlar, bir LLM tarafından işlenmiş veya üretilmiş verilerin ayrı bölümlerini temsil eder. Token’lar, brüt metni, bir dil modelinin sindirebileceği, boyutlandırılmış birimlere ayırarak üretilir; bu, bir derleyicinin insan dilini bir bilgisayarın anlayabileceği ikili koda çevirmesi gibidir. Kurumsal ortamlarda, token’lar maliyeti belirler — çoğu AI şirketi, LLM kullanımını token başına ücret olarak belirler; bu da kullanım arttıkça ödenecek miktarın da arttığı anlamına gelir.
Yani, token’lar, AI dil modellerinin dili işlemeye başlamadan önce parçalara ayırdığı küçük metin dilimleri — genellikle bütün kelimeler yerine kelimenin parçalarıdır; bunlar AI iş yüklerini anlamak için “kelimelerle” benzer bir şekilde düşünülebilir. İşlem hızı, belirli bir zaman diliminde ne kadar birim işlenebileceğinin ölçüsüdür; bu nedenle token işleme hızı, esasen bir sistemin aynı anda ne kadar çok AI işlerini yönetebileceği ölçüsüdür. Yüksek token işleme hızı, AI altyapı ekipleri için önemli bir hedeftir çünkü bu, bir modelin aynı anda ne kadar çok kullanıcıya hizmet verebileceğini ve her birinin yanıtı ne kadar hızlı alacağını belirler. AI araştırmacısı Andrej Karpathy, AI abonelikleri boşta kaldığında endişeli hissettiğini belirtmiştir; bu duygu, pahalı bilgisayar donanımlarının tam kapasite kullanılmadığı zaman yaşadığı hislerden yola çıkarak ifade edilmiştir — bu, token işleme hızını maksimize etmenin bu alanda bir tutku haline gelmesini açıklar.
Makine öğrenimi AI’leri geliştirmek, eğitim olarak bilinen bir süreç içerir. Basit bir ifadeyle, verinin beslenmesi, modelin desenleri öğrenip faydalı çıktılar üretmesi için gerçekleştirilir. Esasında, bu, sistemin veriden gelen özelliklere yanıt vermesi ve elde edilmek istenen amaca yönelik çıktıları uyarlaması işlemidir; bu, kedi resimlerini tanımlamaktan bir haiku yazmaya kadar değişiklik gösterebilir.
Eğitim maliyetli olabilir çünkü çok fazla girdi (input) gerektirir ve istenilen hacimdeki eğitim verileri yukarı trend göstermektedir; bu nedenle, kurallara dayalı bir AI’yi hedefe yönelik veri ile ince ayar yapma gibi hibrit yaklaşımlar, başlangıçtan tamamen sıfırdan başlamadan maliyetleri yönetmeye yardımcı olabilir.
[Bakınız: Çıkarma]
Daha önce eğitilmiş bir AI modelinin, farklı ama genellikle ilişkili bir görev için yeni bir model geliştirme sürecinde başlangıç noktası olarak kullanıldığı bir teknik anlamına gelir — önceki eğitim döngülerinde elde edilen bilgilerin yeniden uygulanmasına olanak tanır.
Aktarım öğrenimi, model geliştirme sürecini kısaltabilir. Ayrıca, modelin geliştirilmesi için gerekli olan verilerin sınırlı olduğu durumlarda da yararlı olabilir. Ancak bu yaklaşımın bazı kısıtlamaları vardır. Aktarım öğrenimi ile genel yetenekler kazanmak için eğitilen modeller, belirli alanlarında iyi performans göstermek için ek verilere ihtiyaç duyacaklardır.
(Bakınız: İnce ayar)
Ağırlıklar, AI eğitiminin temel unsurlarıdır, çünkü sistemin eğitimine dayalı olarak hangi özelliklere (veya girdi değişkenlerine) ne kadar önem verileceğini belirler; dolayısıyla AI modelinin çıktılarını şekillendirir.
Başka bir deyişle, ağırlıklar, verilen eğitim görevindeki bir veri kümesinde en baskın olanın ne olduğunu tanımlayan sayısal parametrelerdir. Ağırlıklar, girdilere çarpma uygulayarak işlevselliklerini yerine getirirler. Model eğitimi tipik olarak rasgele atanan ağırlıklarla başlarken, süreç ilerledikçe ağırlıklar, modelin hedefe daha yakın bir çıktı elde etmesi için ayarlar.
Örneğin, belirli bir konum için tarihsel gayrimenkul verileri eğitilmiş bir konut fiyatları tahmin eden bir AI modelinin, oda sayısı, banyo sayısı, bir mülkün müstakil veya bitişik olup olmadığı, otopark ve garaj gibi özellikler için ağırlıklar içermesi muhtemeldir.
Sonuç olarak, modelin bu girdilere eklediği ağırlıklar, verilen veri kümesine dayanan bir mülkün değerine ne kadar etkisinin olduğunu yansıtır.
Doğrulama kaybı, bir AI modelinin eğitim sürecinde ne kadar iyi öğrenip öğrenmediğini gösteren bir sayıdır — ve daha düşük, daha iyidir. Araştırmacılar, eğitim sürecini durdurmak, hiperparametreleri ayarlamak veya potansiyel bir problemi araştırmak için kullanılan bir çeşit gerçek zamanlı rapor kartı olarak izlerler. En önemli endişelerden biri, bir modelin eğitim verilerini ezberlemekte ve gerçekten yeni durumlara genelleştirilebilecek desenleri öğrenmemekte kaldığı bir durumu olan aşırı uyum (overfitting) durumunu ortaya çıkarmak için bu sayıyı izlemektir. Bu durumu bir öğrencinin gerçek bilgiyi anlaması ve sadece geçen yılki sınavı ezberlemesi arasındaki fark olarak düşünün; doğrulama kaybı, modelinizin hangi yolda ilerlediğini ortaya koymaya yardımcı olur.
Bu makale düzenli olarak yeni bilgilerle güncellenmektedir.
Yazılarımızdaki bağlantılar üzerinden alışveriş yapmanız durumunda küçük bir komisyon kazanabiliriz. Bu, editoryal bağımsızlığımızı etkilemez.

