Muhtemelen ChatGPT dahil olmak üzere dil modelleri, orijinal kaynağa atıfta bulunmadan eğitim verilerinden kavramları başka kelimelerle ifade edip yeniden kullandığında intihalle ilgili endişeler ortaya çıkar.

Bir sonraki ödevlerini bir chatbot ile bitirmeden önce, öğrenciler bunun üzerinde biraz düşünmek isteyebilir. Konuya özel olarak bakmak için ilk çalışmayı üstlenen Penn Üniversitesi liderliğindeki bir araştırma ekibine göre, kullanıcı istemlerine yanıt olarak metin oluşturan dil modelleri içeriği birden fazla şekilde intihal eder.

Penn State’de bilgi bilimleri ve teknolojisi profesörü Dongwon Lee, “İntihalin farklı tatları var,” dedi. “Dil modellerinin yalnızca kopyalayıp yapıştırmakla kalmayıp, farkında olmadan daha karmaşık intihal biçimlerine başvurup başvurmadığını görmek istedik.”

Araştırmacılar, intihalin üç biçimini belirlemeye odaklandı: kelimesi kelimesine veya içeriği doğrudan kopyalayıp yapıştırma; orijinal kaynağa atıfta bulunmadan başka kelimelerle ifade etme veya içeriği yeniden ifade etme ve yeniden yapılandırma; ve fikir ya da bir metindeki ana fikri uygun bir atıfta bulunmadan kullanmak. Otomatik intihal tespiti için bir ardışık düzen oluşturdular ve bunu OpenAI’nin GPT-2’sine karşı test ettiler çünkü dil modelinin eğitim verileri çevrimiçi olarak mevcut ve araştırmacıların oluşturulan metinleri GPT-2’yi önceden eğitmek için kullanılan 8 milyon belgeyle karşılaştırmasına olanak tanıyor.

Bilim adamları, önceden eğitilmiş dil modellerinde ve ince ayarlı dil modellerinde veya belirli konu alanlarına odaklanmak için daha fazla eğitilmiş modellerde intihal testi yapmak için 210.000 oluşturulmuş metin kullandı. Bu durumda ekip, bilimsel belgelere, COVID-19 ile ilgili bilimsel makalelere ve patent taleplerine odaklanmak için üç dil modelinde ince ayar yaptı. Oluşturulan her metne en çok benzeyen ilk 10 eğitim belgesini almak için açık kaynaklı bir arama motoru kullandılar ve kelimesi kelimesine, başka kelimelerle ifade etme ve fikir intihal örneklerini daha iyi tespit etmek için mevcut bir metin hizalama algoritmasını değiştirdiler.

Ekip, dil modellerinin her üç intihal türünü de işlediğini ve modeli eğitmek için kullanılan veri kümesi ve parametreler ne kadar büyükse, intihalin o kadar sık ​​meydana geldiğini buldu. Ayrıca, ince ayarlı dil modellerinin kelimesi kelimesine intihali azalttığını ancak başka kelimelerle ifade etme ve fikir intihali örneklerini artırdığını da belirtmişlerdir. Ek olarak, bireylerin özel bilgilerini her üç intihal biçimi aracılığıyla ifşa eden dil modelinin örneklerini belirlediler. Araştırmacılar bulgularını 30 Nisan-4 Mayıs tarihleri ​​arasında Austin, Teksas’ta gerçekleşecek olan 2023 ACM Web Konferansı’nda sunacaklar.

Penn State Bilişim Bilimleri ve Teknolojisi Koleji’nde doktora öğrencisi olan baş yazar Jooyoung Lee, “İnsanlar büyük dil modellerini takip ediyor çünkü model büyüdükçe nesil yetenekleri artıyor” dedi. “Aynı zamanda eğitim külliyatındaki içeriğin orijinalliğini ve yaratıcılığını tehlikeye atıyorlar. Bu önemli bir bulgu.”

Araştırmacılara göre çalışma, metin oluşturucular ve bunların ortaya koyduğu etik ve felsefi sorular hakkında daha fazla araştırma yapılması gerektiğini vurguluyor.

Mississippi Üniversitesi’nde bilgisayar ve bilgi bilimi yardımcı doçenti Thai Le, “Çıktı çekici olsa ve dil modellerini kullanmak eğlenceli olsa ve belirli görevler için üretken görünse de, bu onların pratik oldukları anlamına gelmez” dedi. Penn State’te doktora adayı olarak proje üzerinde çalışmaya başlayan Dr. “Uygulamada, metin oluşturucuların ortaya çıkardığı etik ve telif hakkı sorunlarıyla ilgilenmemiz gerekiyor.”

Çalışmanın sonuçları yalnızca GPT-2 için geçerli olsa da, araştırmacıların kurduğu otomatik intihal tespit süreci, bu modellerin eğitim içeriğinde intihal yapıp yapmadığını ve ne sıklıkla intihal yaptığını belirlemek için ChatGPT gibi daha yeni dil modellerine uygulanabilir. Araştırmacılar, intihal testinin, geliştiricilerin eğitim verilerini herkesin erişimine açık hale getirmesine bağlı olduğunu söyledi.

Bilim adamlarına göre mevcut çalışma, AI araştırmacılarının gelecekte daha sağlam, güvenilir ve sorumlu dil modelleri oluşturmasına yardımcı olabilir. Şimdilik, bireyleri metin oluşturucuları kullanırken dikkatli olmaya teşvik ediyorlar.

Penn State’de bilgi bilimleri ve teknoloji profesörü yardımcısı Jinghui Chen, “Yapay zeka araştırmacıları ve bilim adamları dil modellerini nasıl daha iyi ve daha sağlam hale getireceklerini araştırıyorlar, bu arada birçok kişi günlük yaşamlarında çeşitli üretkenlik görevleri için dil modellerini kullanıyor” dedi. “Dil modellerini bir arama motoru veya hata ayıklama kodu için bir yığın taşması olarak kullanmak muhtemelen iyi olsa da, başka amaçlar için, dil modeli çalıntı içerik üretebileceğinden, kullanıcı için olumsuz sonuçlara yol açabilir.”

Dongwon Lee, intihal sonucunun beklenmedik bir şey olmadığını ekledi.

“Rastlantısal bir papağan olarak, insanlara doğru düzgün intihal yapmayı öğretmeden, insan yazılarını taklit edecek dil modellerini öğrettik” dedi. “Şimdi onlara daha düzgün yazmayı öğretme zamanı ve daha gidecek çok yolumuz var.”


OnePlus 11 5G, şirketin başka birçok cihazın da piyasaya sürüldüğü Cloud 11 lansman etkinliğinde piyasaya sürüldü. Gadgets 360 podcast’i Orbital’de bu yeni telefonu ve OnePlus’ın tüm yeni donanımlarını tartışıyoruz. Orbital şu ​​adreste mevcuttur: spotify, Gaana, JioSaavn, Google Podcast’leri, Apple Podcast’leri, Amazon Müzik ve podcast’lerinizi nereden alırsanız alın.
Ortaklık bağlantıları otomatik olarak oluşturulabilir – ayrıntılar için etik beyanımıza bakın.

Barselona’daki Mobil Dünya Kongresi’nde Samsung, Xiaomi, Realme, OnePlus, Oppo ve diğer şirketlerden en son lansmanların ayrıntıları ve haberleri için MWC 2023 merkezimizi ziyaret edin.



genel-8