Deepfake videoların yükselişiyle ilgili süregelen endişelere rağmen, genellikle kötü amaçlarla oluşturulan veya manipüle edilen çevrimiçi içerik, seçim müdahalesinden ortaya çıkan siber güvenlik tehditleri — dijital “sentetik medya” işyerinde gerçek dünya faydaları sunuyor.
Bu, en azından, insan benzeri dijital avatarlar yaratmak için üretken yapay zeka (genAI) araçlarına ve derin öğrenme algoritmalarına yönelen çeşitli startup şirketlerinin sunduğu vaattir. Yeni araçlar özellikle şirketler tarafından kurum içi iletişimler, çalışanlara yönelik eğitim videoları, belirli işler veya görevler için nasıl yapılır kılavuzları ve hatta müşteriye yönelik pazarlama videoları oluşturmak için kullanılabilir.
Önceden yazılmış bir senaryoyla hazırlanan dijital avatarlar, video içeriğinde olağan üretim ve düzenleme maliyetleri ve çabası olmadan kullanılabilir. Sonuç: daha hızlı içerik oluşturma, daha fazla kişiselleştirme ve seslendirme aktörünü işe almadan iletişimleri çeşitli dillere çevirme yeteneği; üstelik tüm bunlar olurken çalışanlara ve müşterilere yararlı bilgiler sunmaya devam ediyor.
IDC’de yapay zekadan sorumlu grup başkan yardımcısı Ritu Jyoti, iş bağlamında yapay zeka tabanlı video oluşturma araçları için “büyük potansiyel” görüyor. “İşletmeler bunu pazarlama, eğitim, öğretim, video kılavuzları oluşturmak için kullanacak” dedi.
Çoğu durumda videonun yapay olarak oluşturulduğu hemen anlaşılır. Ancak teknoloji, AI video oluşturma araçlarının artık kurumsal iletişim için uygun olacağı kadar yeterli bir gerçekçilik düzeyine ulaştı.
Jyoti sentetik avatarlar hakkında “Çok gerçekçi görünüyorlar” dedi. “Artık göz kırpabiliyorlar, gözlerini, yanaklarını hareket ettirebiliyorlar, dudak hareketi orada…”
Son yıllarda işletmelerin, çalışanlarının gerçeğe yakın dijital avatarlarını yaratmalarına yardımcı olmayı vaat eden bir dizi girişim ortaya çıktı. Bu listede son iki yılda 156 milyon dolar fon alan Synthesia; YAPTI; HeyGen; ve Birinci Saat. (Bir diğeri, Rephrase.ai, yakın zamanda Adobe olduğu bildirilen bir “öncü teknoloji şirketi” tarafından satın alındı.)
Daha büyük oyuncular da benzer özellikler geliştiriyor: Microsoft Azure AI Konuşma hizmetini tanıttı Kasım ayında, araç şu anda önizleme aşamasındadır.
Forrester kıdemli analisti Rowan Curran, “Hem büyük teknoloji satıcıları hem de startup tarafında pazarın bundan büyüdüğünü görmeye devam edeceğimizi düşünüyorum” dedi.
Ancak şimdilik pazarın en azından girişim alımı açısından erken aşamada olduğunu söyledi. “Bu araçlarla ilgili olarak hâlâ çok yeni bir dönemdeyiz; asıl işlevsellikten çok benimsenme açısından,” dedi.
Metin belgelerinin yerini alacak video?
Çoğu uygulamada yapay zeka tarafından oluşturulan içerik oluşturmanın temel süreci oldukça basittir. Kullanıcılar genellikle bir dizi seçenek arasından kullanıma hazır, genel bir avatar seçer veya dijital bir temsil oluşturmak için bir çalışanın video görüntülerini (veya bazı durumlarda yalnızca bir görüntüyü) yükler. Bir ses seçilir, daha sonra bir metin metni eklenir ve arka plan gibi diğer özelleştirilmiş özellikler de dahil edilebilir.
Tüm parçalar yerine oturduğunda, kendi başına kullanılabilecek veya dosyalara (örneğin bir PowerPoint sunumunda konuşan bir kafa) gömülebilecek bir video oluşturulur.
Synthesia’nın CEO’su ve kurucu ortağı Victor Riparbelli, bir e-posta röportajında, iş dünyasının en önemli avantajının maliyetlerin azalması olduğunu söyledi. (Şirketin müşterileri arasında Heineken, Zoom ve DuPont gibi çok uluslu firmalar bulunmaktadır.)
Riparbelli, “Bir video prodüksiyon ekibi çalıştırmanın yanı sıra ekipman ve stüdyo süresi gibi masrafların ödenmesi, birçok kuruluş için video prodüksiyonunu imkansız hale getirebilir” dedi.
Müşterilerin video üretmek için gereken süreyi kısaltabileceklerini ve yeniden çekime gerek kalmadan değişiklik yapabileceklerini söyledi. Araçlar aynı zamanda daha geniş bir çalışan yelpazesinin, video prodüksiyon bilgisine ihtiyaç duymadan bir kuruluş içinde video oluşturmasına da olanak tanır.
Riparbelli, pazarlama içeriğinin yanı sıra, şu anda en yaygın ticari kullanımın öğrenme ve gelişim içeriği oluşturmak olduğunu söyledi ve diğer yaygın örneklere katılım ve işe alım videoları da ekledi.
Müşterileri arasında Fortune 500 şirketlerinin de yer aldığı D-ID yetkilileri, genAI tabanlı bir platform aracılığıyla oluşturulan videonun, çalışanların öğrenmesi ve gelişimi gibi amaçlar doğrultusunda sıklıkla geleneksel ofis belgelerinin yerini aldığını açıkladı.
D-ID’nin ticari stratejiden sorumlu başkan yardımcısı Matthew Kershaw, “Bu içerik ağırlıklı olarak PowerPoint slaytları veya buna benzer şekilde yazılıyken, artık bu içeriği oluşturmalarına ve video haline getirmelerine yardımcı olabiliyoruz” dedi. İnsanların yazılı bir belgeyi veya sunum slaytlarını okumaktansa video izleme olasılığının daha yüksek olduğunu ve bu bilgiyi daha sonra akılda tutma olasılığının daha yüksek olduğunu söyledi.
D-ID, videonun yanı sıra kurumsal müşteriler veya şirket içi çalışanlarla gerçek zamanlıya yakın etkileşimler için yapay zeka avatarlarının kullanımına da odaklanıyor. Kershaw, fikrin sentetik medyayı yapay zekanın güçlü içerik üretimiyle birleştirmek olduğunu ve bunun esas olarak avatarları büyük dil modeli (LLM) tabanlı sohbet robotlarının “yüzü” haline getirmek olduğunu söyledi.
“Daha sonra gerçek zamanlı olarak konuşabileceğiniz ve ona sorular sorabileceğiniz bu dijital insan avatarını yaratabilirsiniz” dedi. “LLM’ler çok sınırlıdır. Hâlâ metindir: metni koyarsınız ve metni geri alırsınız. Sahip olduğumuz şey, onunla çok daha doğal, insani bir şekilde sohbet etme yeteneğimiz.”
Şirketin sonunda konuşmanın duygusal akışını takip etmek için duygu analizini dahil edebilmeyi umduğunu söyledi. (Bu şu anda D-ID ürününün bir özelliği değildir.)
Kershaw, “Yani eğer bu bir müşteri hizmetleri meselesiyse ve müşteri hüsrana uğruyor veya sinirleniyorsa, avatar bunu fark edebilir ve ‘Duyduğuma göre oldukça hüsrana uğramışsın’ diyebilir” dedi. Başka bir örnek İK ile ilgili amaçlar olabilir, farklı bir dilde bile olabilecek bir çalışan el kitabı belgesine başvurmak yerine, bir avatara şirket kurallarıyla (örneğin jüri hizmeti için seçildiğinde yönergeler) ilgili bir soru sorma yeteneği olduğunu söyledi.
Yapay zeka avatarlarında dikkatli olunması gerekiyor
Herhangi bir genAI aracının kullanımında olduğu gibi analistler, işletmelere AI video oluşturma araçlarını dağıtırken güvenlik ve yönetim konusunda önlemler almalarını tavsiye ediyor. “Bunları kullanmayı düşünen herhangi bir şirket [applications] Curran, “Ciddi testler ve risk değerlendirmeleri yapmalı” dedi. Buna, çalışanların pratikte bu araçlara nasıl yanıt verdiğini anlamak için kullanıcı kabul testi de dahildir.
Jyoti, işletmelerin AI video oluşturma araçlarının çıktılarına karşı da dikkatli olmaları gerektiğini söyledi. Tıpkı ChatGPT gibi metin tabanlı araçların “halüsinasyonlara” sahip olabilmesi gibi, bir avatarın konuşması da komut dosyası girişinden farklı olabilir. Bu, özellikle metin birden fazla dile çevrildiğinde sorun yaratabilir. Jyoti, işletmelerin halüsinasyonları ve her türlü “toksik” çıktıyı azaltmak için içerik filtrelemesinin mevcut olduğundan emin olması gerektiğini söyledi.
Ayrıca, bir avatarın dağıtımını, mesajın amaçlanan tonuyla eşleşecek şekilde kontrol etmek için kontrollerin mevcut olduğundan emin olmak da önemlidir. “Denediğinizden, iyi denemeler yaptığınızdan ve daha basit, daha az riskli kullanım durumları için kullandığınızdan emin olun. [first]dedi Jyoti.
Avatarların kullanımı aynı zamanda verinin sahipliğine ilişkin gerçek soruları da gündeme getiriyor. Yapay zeka tabanlı video oluşturma araçları, bir işverenin, örneğin kişi şirketten ayrıldıktan sonra bile çalışanın benzerliğine dayalı video içeriği oluşturmaya devam etmesini kolaylaştırıyor. Curran, “Bu konulardan bazıları zaten bazı iş sözleşmelerinde yanıtlanıyor, ancak ek gri alanlar da olacak” dedi.
Bu araçların derin sahtekarlık veya yetkisiz içerik oluşturmak için kötüye kullanıldığına ilişkin endişeler gerçek olsa da, satıcılar bunun olmasını önlemek için adımlar atıyor. Kershaw, örneğin, D-ID yazılımı kullanılarak oluşturulan videoların bir logo (D-ID’nin kendisine veya müşteriye ait) veya videonun “gerçek” olduğunu belirten bir sorumluluk reddi beyanı içereceğini belirtti.
Gelecek bir sentetik medya akışı mı?
Yapay zeka video oluşturma araçları bazı açılardan 2022 sonlarında başlayan gen yapay zeka dalgasının evrimsel bir sonraki adımını temsil ediyor. OpenAI’nin ChatGPT’si gibi ilk araçlar daha çok metin oluşturmaya dayanıyordu ancak bu durumun değişmesi muhtemel.
Curran, “geçen yıl boyunca üretken yapay zeka patlamasının odağı olarak gördüğümüz yalnızca metin üretimi yerine, 2024’te görüntü ve video oluşturmaya büyük bir yeniden odaklanma” öngörüyor.
Video için yapay zeka tarafından oluşturulan avatarların ötesinde, ilgi kazanmaya başlayan ses ve ses oluşturma teknolojileri de dahil olmak üzere geliştirilmekte olan başka metinden videoya araçlar da var. Bu teknolojilerin birleşimi, işletmeler tarafından ve internet üzerinden üretilen içerik miktarını önemli ölçüde artırabilir. Curran, insanların çok fazla sentetik medyayı görüntüleyebileceğini veya bunlarla etkileşime girebileceğini ve içeriğin yakında “kurumsal kanalların taleplerini gerçekten karşılayabilecek oranda” oluşturulabileceğini söyledi.
Bu, genAI’nın yakın gelecekte içerik oluşturmada insan katılımı ihtiyacının yerini alacağı anlamına gelmiyor. Yapay zeka tarafından oluşturulan içerik, insani bir bağlantının arzu edildiği belirli iletişim türleri için uygun olmayabilir (örneğin, bir CEO’nun kuruluş içindeki bir kriz sırasında çalışanlara hitap etmesi).
Kershaw, D-ID gibi araçların amacının tüm senaryolarda video prodüksiyonunun yerini almak değil, daha önce pratik olmayan video oluşturmayı mümkün kılmak olduğunu söyledi.
“Gerçek şu ki video prodüksiyonu devam edecek çünkü şu anda yapay zeka ile yapamayacağınız şeyleri gerçek videoyla yapabilirsiniz” dedi. “Bunun yapmanıza olanak sağladığı şey, videoyu daha fazla yere, normalde hiç sahip olamayacağınız yerlere yerleştirmektir.
“Eskiden çok sayıda siyah beyaz baskı vardı” dedi. “Artık neredeyse siyah beyaz baskı yapamıyorsunuz; her şey renklidir. Benzer bir şeyi videolarda da göreceğimizi düşünüyorum: Video, iş dünyasındaki iletişimde norm haline gelecek.”
Telif Hakkı © 2024 IDG Communications, Inc.