Google, yakın zamanda büyük bir çıkış yapan yeni bir üretken yapay zeka platformu olan Gemini ile ses getirmeye çalışıyor. Ancak İkizler burcu bazı açılardan umut verici görünse de diğer açılardan yetersiz kalıyor. Peki İkizler burcu nedir? Bunu nasıl kullanıyorsun? Peki rekabette nasıl bir performans sergiliyor?
Gemini’deki en son gelişmelere ayak uydurmayı kolaylaştırmak için, yeni Gemini modelleri ve özellikleri yayınlandıkça güncel tutacağımız bu kullanışlı kılavuzu bir araya getirdik.
İkizler Nedir?
Gemini Google’ındır uzun zamandır vaat edilenGoogle’ın yapay zeka araştırma laboratuvarları DeepMind ve Google Research tarafından geliştirilen yeni nesil üretken yapay zeka model ailesi. Üç çeşit olarak gelir:
- İkizler Ultraamiral gemisi Gemini modeli
- İkizler Probir “hafif” İkizler modeli
- İkizler NanoPixel 8 Pro gibi mobil cihazlarda çalışan daha küçük “damıtılmış” bir model
Tüm Gemini modelleri “doğal olarak çok modlu” olacak şekilde eğitildi; başka bir deyişle, yalnızca metinle çalışabilecek ve metinden daha fazlasını kullanabilecek şekilde eğitildi. Çeşitli ses, görüntü ve videolar, geniş bir kod tabanı seti ve farklı dillerdeki metinler konusunda önceden eğitildiler ve ince ayarlara tabi tutuldular.
Bu, Gemini’yi Google’ın yalnızca metin verileriyle eğitilmiş kendi büyük dil modeli LaMDA gibi modellerden ayırıyor. LaMDA metinden başka hiçbir şeyi anlayamaz veya oluşturamaz (örn. makaleler, e-posta taslakları vb.) – ancak Gemini modellerinde durum böyle değildir. Görüntüleri, sesleri ve diğer yöntemleri anlama yetenekleri hala sınırlıdır, ancak hiç yoktan iyidir.
Bard ve Gemini arasındaki fark nedir?
Markalaşma konusunda beceriksiz olduğunu bir kez daha kanıtlayan Google, Gemini’nin Bard’dan ayrı ve farklı olduğunu en başından beri açıkça belirtmedi. Bard, belirli Gemini modellerine erişilebilen bir arayüzdür; bunu Gemini ve diğer nesil yapay zeka modelleri için bir uygulama veya istemci olarak düşünün. Gemini ise bir uygulama veya ön uç değil, bir model ailesidir. Bağımsız bir Gemini deneyimi yoktur ve muhtemelen hiçbir zaman da olmayacaktır. OpenAI ürünlerini karşılaştıracak olursanız Bard, OpenAI’nin popüler konuşma amaçlı yapay zeka uygulaması ChatGPT’ye, Gemini ise onu destekleyen dil modeline karşılık gelir; ChatGPT’nin durumunda GPT-3.5 veya 4’tür.
Bu arada Gemini, şirketin genel yapay zeka stratejisine uyabilecek veya uymayabilecek bir metinden resme modeli olan Imagen-2’den de tamamen bağımsızdır. Endişelenmeyin, bu konuda kafası karışan tek kişi siz değilsiniz!
İkizler burcu ne yapabilir?
Gemini modelleri çok modlu olduğundan, teoride konuşmanın yazıya geçirilmesinden resim ve videoların altyazılarının yazılmasına ve sanat eserlerinin oluşturulmasına kadar çeşitli görevleri yerine getirebilirler. Bu yeteneklerin çok azı henüz ürün aşamasına ulaştı (bu konuya daha sonra değineceğiz), ancak Google çok da uzak olmayan bir gelecekte bunların hepsini ve daha fazlasını vaat ediyor.
Elbette şirketin sözüne güvenmek biraz zor.
Google, orijinal Bard lansmanını ciddi anlamda yetersiz bir şekilde gerçekleştirdi. Ve yakın zamanda Gemini’nin yeteneklerini gösterdiği iddia edilen, üzerinde yoğun bir şekilde oynandığı ve az çok istek uyandırdığı ortaya çıkan bir videoyla tüyleri karıştırdı. İkizler burcu dır-dirteknoloji devinin takdirine göre, bugün bir biçimde mevcut, ancak oldukça sınırlı bir biçimde.
Yine de, Google’ın iddialarında az çok dürüst olduğunu varsayarsak, Gemini modellerinin farklı katmanlarının piyasaya sürüldükten sonra yapabilecekleri şunlardır:
İkizler Ultra
Şimdiye kadar diğer modellerin de üzerine inşa edildiği “temel” model olan Gemini Ultra’yı çok az kişi ele geçirdi; yalnızca bir avuç Google uygulaması ve hizmetindeki “seçilmiş bir müşteri grubu”. Bu yılın sonuna, Google’ın en büyük modelinin daha geniş çapta piyasaya sürülmesine kadar bu durum değişmeyecek. Ultra hakkındaki bilgilerin çoğu Google liderliğindeki ürün demolarından alınmıştır, bu nedenle biraz ihtiyatlı yaklaşmak en iyisidir.
Google, Gemini Ultra’nın fizik ödevleri, problemleri bir çalışma sayfasında adım adım çözme ve önceden doldurulmuş yanıtlardaki olası hataları gösterme gibi konularda yardımcı olmak için kullanılabileceğini söylüyor. Google, Gemini Ultra’nın belirli bir sorunla ilgili bilimsel makaleleri belirlemek, bu makalelerden bilgi çıkarmak ve grafiği daha yeni verilerle yeniden oluşturmak için gerekli formülleri üreterek bir grafiği “güncellemek” gibi görevlere de uygulanabileceğini söylüyor.
Gemini Ultra, daha önce de belirtildiği gibi teknik olarak görüntü oluşturmayı destekler. Ancak Google’a göre bu yetenek, lansman sırasında modelin ürünleştirilmiş versiyonunda yer almayacak; bunun nedeni belki de mekanizmanın, ChatGPT gibi uygulamaların görüntü oluşturma biçiminden daha karmaşık olmasıdır. Gemini, istemleri bir görüntü oluşturucuya beslemek yerine (ChatGPT’nin durumunda DALL-E 3 gibi), görüntüleri herhangi bir ara adım olmadan “doğal olarak” çıkarır.
İkizler Pro
Gemini Ultra’nın aksine Gemini Pro bugün halka açıktır. Ancak kafa karıştırıcı bir şekilde, yetenekleri nerede kullanıldığına bağlıdır.
Google, Gemini Pro’nun ilk kez salt metin biçiminde piyasaya sürüldüğü Bard’da modelin akıl yürütme, planlama ve anlama yetenekleri açısından LaMDA’ya göre bir gelişme olduğunu söylüyor. Bağımsız çalışmak Carnegie Mellon ve BerriAI araştırmacıları Gemini Pro’nun daha uzun ve daha karmaşık akıl yürütme zincirlerini yönetme konusunda OpenAI’nin GPT-3.5’inden gerçekten daha iyi olduğunu buldu.
Ancak çalışma aynı zamanda tüm büyük dil modelleri gibi Gemini Pro’nun da özellikle birkaç rakam içeren matematik problemleriyle uğraştığını ve kullanıcıların çok sayıda kötü akıl yürütme ve hata örneği bulduğunu ortaya çıkardı. En son Oscar’ları kimin kazandığı gibi basit sorgularda pek çok maddi hata yapıldı. Google iyileştirmeler sözü verdi ancak bunların ne zaman geleceği belli değil.
Gemini Pro ayrıca, metni giriş olarak kabul eden ve metni çıktı olarak üreten, Google’ın tam olarak yönetilen yapay zeka geliştirici platformu Vertex AI’deki API aracılığıyla da kullanılabilir. Ek bir uç nokta olan Gemini Pro Vision, metni işleyebilir Ve fotoğraflar ve videolar da dahil olmak üzere görüntüler ve OpenAI’nin GPT-4 with Vision modelinin çizgileri boyunca metin çıktısı alın.
Geliştiriciler, Vertex AI içerisinde Gemini Pro’yu belirli bağlamlara göre özelleştirebilir ve ince ayar veya “temelleme” sürecini kullanarak vakaları kullanabilir. Gemini Pro ayrıca belirli eylemleri gerçekleştirmek için harici, üçüncü taraf API’lere de bağlanabilir.
“2024’ün başlarında” Vertex müşterileri, özel olarak oluşturulmuş konuşma sesini ve sohbet aracılarını (yani sohbet robotlarını) desteklemek için Gemini Pro’yu kullanabilecekler. Gemini Pro aynı zamanda Vertex AI’de arama özetleme, öneri ve yanıt oluşturma özelliklerini desteklemek, sorguları karşılamak için farklı kaynaklardan (örn. OneDrive, Salesforce) farklı yöntemlerdeki belgelerden (örn. PDF’ler, resimler) yararlanarak bir seçenek haline gelecektir.
Google’ın uygulama ve platform geliştiricilerine yönelik web tabanlı aracı AI Studio’da, Gemini Pro’yu kullanarak serbest biçimli, yapılandırılmış ve sohbet istemleri oluşturmaya yönelik iş akışları bulunur. Geliştiricilerin hem Gemini Pro hem de Gemini Pro Vision uç noktalarına erişimi vardır ve çıktının yaratıcı aralığını kontrol etmek için model sıcaklığını ayarlayabilir, ton ve stil talimatları vermek için örnekler sağlayabilir ve ayrıca güvenlik ayarlarını ayarlayabilirler.
İkizler Nano
Gemini Nano, Gemini Pro ve Ultra modellerinin çok daha küçük bir versiyonudur ve görevi herhangi bir yerdeki bir sunucuya göndermek yerine (bazı) telefonlarda doğrudan çalıştırabilecek kadar verimlidir. Şu ana kadar Pixel 8 Pro’daki iki özelliği destekliyor: Kaydedicide Özetle ve Gboard’da Akıllı Yanıt.
Kullanıcıların sesi kaydetmek ve yazıya dökmek için bir düğmeye basmasına olanak tanıyan Kaydedici uygulaması, kayıtlı konuşmalarınızın, röportajlarınızın, sunumlarınızın ve diğer parçacıkların Gemini destekli bir özetini içerir. Kullanıcılar bu özetleri, bir sinyal veya Wi-Fi bağlantısı olmasa bile alırlar ve gizliliğe bir saygı duruşu olarak, bu süreçte telefonlarından hiçbir veri ayrılmaz.
Gemini Nano aynı zamanda Google’ın klavye uygulaması olan Gboard’da da bulunmaktadır. geliştirici önizlemesi. Burada, bir mesajlaşma uygulamasında sohbet ederken söylemek isteyeceğiniz bir sonraki şeyi önermeye yardımcı olan Akıllı Yanıt adı verilen bir özelliği çalıştırıyor. Google, özelliğin başlangıçta yalnızca WhatsApp’ta çalıştığını ancak 2024’te daha fazla uygulamaya geleceğini söylüyor.
Gemini, OpenAI’nin GPT-4’ünden daha mı iyi?
Gemini ailesinin nasıl olduğunu bilmenin hiçbir yolu yok Gerçekten Google bu yılın sonlarında Ultra’yı yayınlayana kadar birikiyor ancak şirket, genellikle OpenAI’nin GPT-4’ü olan en son teknolojiye ilişkin iyileştirmeler olduğunu iddia etti.
Google, Gemini Ultra’nın “büyük dil modeli araştırma ve geliştirmesinde kullanılan yaygın olarak kullanılan 32 akademik kriterden 30’unda” mevcut en son sonuçları aştığını iddia ederek, Gemini’nin kıyaslamalardaki üstünlüğünü defalarca övdü. Şirket bu arada Gemini Pro’nun içeriği özetleme, beyin fırtınası yapma ve yazma gibi görevlerde GPT-3.5’ten daha yetenekli olduğunu söylüyor.
Ancak kıyaslamaların gerçekten daha iyi bir modeli gösterip göstermediği sorusunu bir kenara bırakırsak, Google’ın işaret ettiği puanlar, OpenAI’nin ilgili modellerinden yalnızca marjinal olarak daha iyi görünüyor. Ve – daha önce de belirtildiği gibi – kullanıcılar açısından bazı ilk izlenimler pek iyi olmadı ve akademisyenler Gemini Pro’nun temel gerçekleri yanlış anlama eğiliminde olduğunu, çevirilerle uğraştığını ve kötü kodlama önerileri verdiğini belirtiyor.
Gemini’nin maliyeti ne kadar olacak?
Gemini Pro’nun Bard’da ve şimdilik AI Studio ve Vertex AI’de kullanımı ücretsizdir.
Ancak Gemini Pro, Vertex’teki önizlemeden çıktığında modelin maliyeti karakter başına 0,0025 ABD Doları, çıktının ise karakter başına 0,00005 ABD Doları olacaktır. Vertex müşterileri 1.000 karakter başına (yaklaşık 140 ila 250 kelime) ve Gemini Pro Vision gibi modellerde görüntü başına (0,0025 ABD doları) ödeme yapar.
500 kelimelik bir makalenin 2.000 karakter içerdiğini varsayalım. Bu makaleyi Gemini Pro ile özetlemek 5 dolara mal olacak. Bu sırada, üreten benzer uzunluktaki bir makalenin maliyeti 0,1 dolardır.
Gemini’yi nerede deneyebilirsiniz?
İkizler Pro
Gemini Pro’yu deneyimlemenin en kolay yeri Bard’dır. Pro’nun ince ayarlı bir sürümü şu anda ABD’de metin tabanlı Bard sorgularını İngilizce olarak yanıtlıyor; ek diller ve desteklenen ülkeler de buna eklenecek.
Gemini Pro’ya ayrıca bir API aracılığıyla Vertex AI’de önizleme olarak erişilebilir. API’nin kullanımı şimdilik ücretsizdir ve Avrupa dahil 38 dil ve bölgenin yanı sıra sohbet işlevi ve filtreleme gibi özellikleri de desteklemektedir.
Gemini Pro’yu başka yerlerde AI Studio’da bulabilirsiniz. Geliştiriciler, hizmeti kullanarak istemleri ve Gemini tabanlı sohbet robotlarını yineleyebilir ve ardından bunları uygulamalarında kullanmak için API anahtarlarını alabilir veya kodu daha tam özellikli bir IDE’ye aktarabilir.
Geliştiriciler için Duet AIGoogle’ın kod tamamlama ve oluşturmaya yönelik yapay zeka destekli yardım araçları paketi, önümüzdeki haftalarda Gemini modelini kullanmaya başlayacak. Google, Gemini modellerini Chrome ve Firebase mobil geliştirme platformu için geliştirme araçlarına yaklaşık aynı zamanda, yani 2024’ün başlarında getirmeyi planlıyor.
İkizler Nano
Gemini Nano, Pixel 8 Pro’da bulunuyor ve gelecekte diğer cihazlara da gelecek. Modeli Android uygulamalarına dahil etmek isteyen geliştiriciler üye olmak bir göz atmak için.
Bu yazımızı son gelişmelerle güncel tutacağız.