Kırsal Çin’de yoksulluk hakkında bir şikayet. Yolsuz bir Komünist Parti üyesi hakkında bir haber raporu. Girişimcileri sallayan yozlaşmış polisler hakkında yardım çığlığı.
Bunlar, Çin hükümeti tarafından hassas kabul edilen herhangi bir içeriği otomatik olarak işaretlemek için tasarlanmış sofistike bir büyük dil modeline beslenen 133.000 örnekten sadece birkaçı.
TechCrunch tarafından görülen sızdırılmış bir veritabanı, Çin’in Tiananmen Square katliamı gibi geleneksel tabuların çok ötesine uzanan zaten zorlu sansür makinesini süper şarj eden bir AI sistemi geliştirdiğini ortaya koyuyor.
Sistem öncelikle Çin vatandaşlarını çevrimiçi sansürlemeye yönelik görünür, ancak Çin yapay zeka modellerinin zaten kapsamlı sansürü geliştirme gibi başka amaçlar için kullanılabilir.

UC Berkeley’de Çin sansürünü eğiten ve veri kümesini de inceleyen bir araştırmacı olan Xiao Qiang, TechCrunch’a Çin hükümetinin veya bağlı kuruluşlarının baskıyı iyileştirmek için LLM’leri kullanmak istediğine dair “açık kanıt” olduğunu söyledi.
Qiang, “Anahtar kelime tabanlı filtreleme ve manuel inceleme için insan emeğine dayanan geleneksel sansür mekanizmalarının aksine, bu tür talimatlar konusunda eğitilmiş bir LLM, devlet liderliğindeki bilgi kontrolünün verimliliğini ve ayrıntı düzeyini önemli ölçüde artıracaktır” dedi.
Bu, otoriter rejimlerin en son AI teknolojisini hızla benimsediğine dair artan kanıtlara katkıda bulunuyor. Örneğin Şubat ayında, Openai dedi Hükümet karşıtı görevleri izlemek ve Çinli muhalifleri yaymak için LLM’leri kullanarak birden fazla Çinli var.
Washington, DC’deki Çin Büyükelçiliği, TechCrunch’a verdiği demeçte bir açıklamada “Çin’e karşı temelsiz saldırılara ve iftiralara” karşı çıkması ve Çin’in etik yapay zeka geliştirmeye büyük önem vermesi.
Düz görüşte bulunan veriler
Veri kümesi keşfedildi Güvenlik Araştırmacı Netaskari tarafındanbir örneği, bir Baidu sunucusunda barındırılan teminatsız bir elasticsearch veritabanında sakladığını bulduktan sonra TechCrunch ile paylaştı.
Bu, her iki şirketten de herhangi bir katılım göstermez – her türlü kuruluş verilerini bu sağlayıcılarla saklar.
Veri kümesini tam olarak kimin oluşturduğuna dair bir gösterge yok, ancak kayıtlar, en son girişleri Aralık 2024’ten kalma en son girişleri ile verilerin yeni olduğunu gösteriyor.
Muhalefet tespit etmek için bir LLM
Dilde, insanların Sistemin Yaratıcısı Chatgpt’i nasıl teşvik ettiğini hatırlatan Anlamak için isimsiz bir LLM görevi Bir içeriğin siyaset, sosyal yaşam ve ordu ile ilgili hassas konularla ilgisi varsa. Bu tür içerik “en yüksek öncelik” olarak kabul edilir ve hemen işaretlenmesi gerekir.
Birinci öncü konular arasında, Çin’de bazen kamu protestolarına yol açan sıcak düğmeler sorunları olan kirlilik ve gıda güvenliği skandalları, finansal sahtekarlık ve iş uyuşmazlıkları yer alıyor-örneğin, örneğin, Shifang Kirasyon Karşıtı Protestolar 2012.
Herhangi bir “siyasi hiciv” biçimi açıkça hedeflenir. Örneğin, birisi anında işaretlenmesi gereken “mevcut siyasi figürler” hakkında bir noktaya değinmek için tarihsel analojiler kullanıyorsa ve “Tayvan siyaseti” ile ilgili herhangi bir şey olmalıdır. Askeri hareketler, egzersizler ve silah raporları da dahil olmak üzere askeri meseleler yoğun bir şekilde hedeflenmektedir.
Veri kümesinin bir parçacığı aşağıda görülebilir. BT içindeki kod, sistemin onayını onaylamak için bir AI modeli kullandığını onaylayan jetonları ve LLM’leri referans verir:

Eğitim verilerinin içinde
LLM’nin sansür için değerlendirmesi gereken 133.000 örnekten oluşan bu büyük koleksiyondan, TechCrunch toplandı 10 temsili içerik parçası.
Sosyal huzursuzluğu artırması muhtemel konular tekrar eden bir temadır. Örneğin, bir snippet, bir işletme sahibinin girişimcileri sallayan yozlaşmış yerel polis memurlarından şikayet eden bir görevidir, Çin’de yükselen bir sorun ekonomisi mücadele ederken.
Başka bir içerik parçası, Çin’de kırsal yoksulluktan ibadet ederek, sadece yaşlı insanlar ve çocukları bırakan kasabaları tanımlıyor. Ayrıca Çin Komünist Partisi (CCP) hakkında yerel bir yetkiliyi şiddetli yolsuzluk için kovalayan ve Marksizm yerine “batıl inançlara” inanan bir haber raporu var.
Tayvan ve Tayvan’ın askeri yetenekleri hakkında yorum ve yeni bir Çin jet avcı uçağı hakkındaki detaylar gibi askeri meselelerle ilgili kapsamlı materyaller var. TechCrunch’ın bir araştırması, Tayvan için Çince Tayvan Kelimesi (台湾) verilerde 15.000’den fazla kez bahsediliyor.
İnce muhalefet de hedefleniyor gibi görünüyor. Veritabanında yer alan bir snippet, popüler Çin deyimini “ağaç düştüğünde, maymunlar dağıldığında” kullanan gücün geçici doğası hakkında bir fıkra.
Güç geçişleri, otoriter siyasi sistemi sayesinde Çin’de özellikle dokunaklı bir konudur.
“Kamuoyu çalışması için inşa edilmiş“
Veri kümesi, içerik oluşturucuları hakkında herhangi bir bilgi içermez. Ancak, bir uzman TechCrunch’a verdiği demeçte, Çin hükümet hedeflerine hizmet etmek için güçlü bir ipucu sunan “kamuoyu çalışması” için tasarlandığını söylüyor.
Haklar Örgütü 19. Madde 19. Madde Müdürü Michael Caster, “kamuoyu çalışması” nın güçlü bir Çin hükümet düzenleyicisi, Çin Siber İdaresi (CAC) tarafından denetlendiğini ve tipik olarak sansür ve propaganda çabalarına atıfta bulunduğunu açıkladı.
Nihai hedef, Çin hükümet anlatılarının çevrimiçi olarak korunmasını sağlarken, alternatif görüşler temizlenir. Çin Başkanı Xi Jinping Kendisi tarif etti İnternet, ÇKP’nin “kamuoyu çalışması” nın “cephesi” olarak.
Baskı daha akıllı hale geliyor
TechCrunch tarafından incelenen veri kümesi, otoriter hükümetlerin AI’yı baskıcı amaçlar için kullanmaya çalıştıklarına dair en son kanıttır.
Openai Geçen ay bir rapor yayınladı Muhtemelen Çin’den faaliyet gösteren kimliği belirsiz bir aktörün, sosyal medya konuşmalarını – özellikle Çin’e karşı insan hakları protestolarını savunanları – izlemek ve onları Çin hükümetine iletmek için üretken AI kullandığını ortaya koydu.
Bize Ulaşın
AI’nın eyalet atamasında nasıl kullanıldığı hakkında daha fazla bilgi ediniyorsanız, CharlesRollet adresinden Signal üzerinden Charles Rollet’le güvenli bir şekilde iletişime geçebilirsiniz.
Openai ayrıca, önde gelen bir Çinli muhalif olan Cai Xia’yı eleştiren yorumlar oluşturmak için kullanılan teknolojiyi buldu.
Geleneksel olarak, Çin’in sansür yöntemleri, birçok kullanıcının Deepseek’i ilk kez kullandığını deneyimlediği gibi, “Tiananmen katliamı” veya “Xi Jinping” gibi kara listeye alınan terimlerden söz eden içeriği otomatik olarak engelleyen daha temel algoritmalara dayanmaktadır.
Ancak LLMS gibi daha yeni AI teknolojisi, geniş bir ölçekte bile ince eleştiri bularak sansürü daha verimli hale getirebilir. Bazı AI sistemleri de gittikçe daha fazla veri topladıkça gelişmeye devam edebilir.
Berkeley araştırmacısı Xiao, TechCrunch’a verdiği demeçte, “Yapay zeka odaklı sansürün nasıl geliştiğini vurgulamak çok önemlidir, özellikle Deepseek gibi Çin yapay zeka modellerinin kafa içmeleri yaptığı bir zamanda, kamu söylemi üzerindeki devlet kontrolünü daha da sofistike hale getirir” dedi.

