Bir röntgeni okumak veya bir kan yaymasını yorumlamak için bir algoritma oluşturmayı düşünmeden önce, makinenin bir görüntüde neyin ne olduğunu bilmesi gerekir. Sağlık hizmetlerinde yapay zekanın tüm vaatleri – ilgi çeken bir alan 11,3 milyar dolar 2021’de özel yatırımda, makinelere tam olarak ne aradıklarını söyleyen dikkatlice etiketlenmiş veri setleri olmadan gerçekleştirilemez.
Bu etiketli veri setlerini oluşturmak, tek boynuzlu at statüsünün kuzeyindeki şirketlerle övünen bir endüstri haline geliyor. Bugün, Y Combinator’dan yeni çıkmış küçük bir girişim olan Encord, aksiyonun bir parçasını almak istiyor. Bilgisayarla görü projeleri için etiketlenmiş veri kümeleri oluşturmayı hedefleyen Encord, CordVision adlı yapay zeka destekli etiketleme programının kendi beta sürümünü başlattı. Lansman, şu adresteki pilot programları takip ediyor: Stanford Tıp, Sloan Kettering’i Anma ve Kings College Londra. Ayrıca tarafından test edilmiştir Kheiron Medikal ve AI.
Encord, radyologların tıbbi görüntüleri iletmek için evrensel olarak kullanılan bir format olan DICOM görüntülerini yakınlaştırmasına olanak tanıyan bir dizi araç geliştirmiştir. Ve bir radyoloğun oturup görüntünün tamamına açıklama eklemesi yerine, yazılım görüntünün yalnızca önemli bölümlerinin etiketlenmesini sağlayacak şekilde tasarlanmıştır.
Encord, 2020 yılında uygulamalı fizik geçmişine sahip Eric Landau ve Ulrik Stig Hansen tarafından kuruldu. Hansen, Imperial College London’da büyük tıbbi görüntü veri setlerini görselleştirmeye odaklanan bir yüksek lisans tezi projesi üzerinde çalışıyordu. Etiketli veri kümelerini düzenlemenin ne kadar zaman alıcı olduğunu ilk fark eden Hansen oldu.
Bu etiketli veri kümeleri önemlidir çünkü algoritmaların öğrenebileceği “temel gerçekleri” sağlarlar. Etiketlenmiş veri kümeleri gerektirmeyen yapay zeka oluşturmanın bazı yolları vardır, ancak büyük ölçüde yapay zeka (özellikle sağlık hizmetlerinde) denetimli öğrenmeye güvenmiştir, bu da bunları gerektirir.
Etiketlenmiş bir veri seti oluşturmak için, birden fazla doktor kelimenin tam anlamıyla görüntüleri tek tek inceleyecek ve ilgili özelliklerin etrafına çokgenler çizecektir. Diğer zamanlarda açık kaynaklı araçlar veya sensörler ile yapılabilir. Ancak her iki durumda da, bilimsel literatür, bu adımın sağlık yapay zekası dünyasında, özellikle de yapay zekanın büyük adımlar atacağı tahmin edilen, ancak büyük ölçüde herhangi bir büyük paradigma değişikliği sağlayamadığı bir alan olan radyoloji söz konusu olduğunda, büyük bir darboğaz olduğunu öne sürüyor. .
“Çok fazla şüphecilik olduğunu biliyorum. [of AI in the medical world]. Landau, TechCrunch’a verdiği demeçte, ilerlemenin gerçekten yavaş olduğunu düşünüyoruz. “İlk etapta eğitim verilerini gerçekten düşündüğünüz bir yaklaşıma geçişin, bu modellerin ilerlemesini hızlandırmaya yardımcı olacağını düşünüyoruz.”
2021 yazarları olarak kağıt Frontiers in Radiology notunda, insan etiketleyicilerin yaklaşık 100.000 görüntüden oluşan bir veri setini etiketlemek için 24 yıllık bir çalışma yapması gerekiyor. Başka bir 2021 pozisyon ifadesi Avrupa Nükleer Tıp Derneği (EANM) ve Avrupa Kardiyovasküler Görüntüleme Derneği (EACVI) tarafından yayınlanan “tıbbi görüntü analizinde etiketli verilerin elde edilmesi zaman alıcı ve pahalı olabilir” diye belirtiyor. Ancak aynı zamanda, işleri hızlandırabilecek yeni tekniklerin ortaya çıktığına da işaret ediyor.
İronik olarak, bu yeni tekniklerin kendileri yapay zekanın versiyonlarıdır. Örneğin, 2021 Frontiers in Radiology makalesi, aktif bir öğrenme yaklaşımı uygulayarak sürecin %87 daha hızlı olabileceğini gösterdi. 100.000 resim örneğine geri dönmek 24 yılın aksine sadece 3,2 iş yılı alacaktı.
CordVision, temel olarak, mikro modelleme adı verilen aktif bir öğrenme sürecinin bir versiyonudur. Bu teknik, genel olarak, bir ekibin görüntülerin küçük, temsili bir örneğini etiketlemesiyle çalışır. Ardından, bu görüntüler üzerinde belirli bir AI eğitilir ve ardından AI’nın etiketlediği daha geniş havuza uygulanır. Ardından, insan gözden geçirenler, etiketlemeyi sıfırdan yapmak yerine yapay zekanın çalışmasını kontrol edebilir.
Landu iyi kırar Medium sayfasındaki bir blog gönderisinde: Batman filmlerinde Batman’i tespit etmek için tasarlanmış bir algoritma yaptığınızı hayal edin. Mikro modeliniz, Christian Bale Batman’i betimleyen beş resim üzerinde eğitilecektir. Bir diğeri, Ben Affleck’in Batman’ini tanımak için eğitilmiş olabilir, vb. Hep birlikte, her bir küçük parçayı kullanarak daha büyük algoritmayı oluşturursunuz, sonra onu bir bütün olarak seride serbest bırakırsınız.
“Bunun oldukça iyi çalıştığını bulduğumuz bir şey, çünkü çok, çok az açıklama yaparak ve süreci yeniden başlatmaktan kurtulabilirsiniz,” dedi.
Encord, Landau’nun iddialarını desteklemek için veriler yayınladı. Örneğin, bir çalışma Kings College London ile birlikte yürütülen CordVision’ı Intel tarafından geliştirilen bir etiketleme programıyla karşılaştırdı. Beş etiketleyici 25.744 endoskopi video karesini ele aldı. CordVision’ı kullanan gastroenterologlar 6,4 kat daha hızlı hareket etti.
Yöntem, 15.521 COVID-19 X-ışınlarından oluşan bir test setine uygulandığında da etkili oldu. İnsanlar toplam görüntülerin sadece %5’ini inceledi ve bir AI etiketleme modelinin nihai doğruluğu %93,7 idi.
Bununla birlikte, Enord, bu darboğazı tanımlayan ve etiketleme sürecini düzeltmek için AI kullanmaya çalışan tek şirket olmaktan çok uzaktır. Bu alandaki mevcut şirketler zaten büyük değerlemeler bildiriyor. Örneğin, Scale AI bir 7,3 milyar dolarlık değerleme 2021’de ve Snorkel’in tek boynuzlu at statüsüne ulaştı.
Landau’nun kabulüne göre şirketin en büyük rakibi muhtemelen Labelbox. TechCrunch, A Serisi aşamasında onları kapsadığında, Labelbox yaklaşık 50 müşteriyle övündü. Ocak ayında şirket 110 milyon dolarlık bir D Serisini kapattı ve onu 1 milyar dolarlık markanın tükürme mesafesine getirdi.
CordVision hala çok küçük bir balıktır. Ama gelgit dalgasını etiketleyen bir veriye yakalandı. Landau, şirketin kendi veri etiketlemelerini yapmak için hala açık kaynaklı veya dahili araçlar kullanan yerlerin peşinden gittiğini söylüyor.
Şimdiye kadar şirket, Y Combinator’dan mezun olduktan sonra tohum ve A Serisi finansmanda 17.1 $ topladı. Şirket, iki kurucusundan 20 kişilik bir ekibe dönüşmüştür. Landau, Encord’un nakit para harcamadığını söylüyor. Şirket şu anda kaynak yaratma peşinde değil ve mevcut artışların bu aracı ticarileştirme sürecinden geçirmek için yeterli olacağına inanıyor.