Metinden görüntüye yapay zeka sistemi Stable Diffusion’ın arkasındaki girişim destekli girişim olan Stability AI, yapay zekayı biyoteknolojinin sınırlarına uygulamak için geniş kapsamlı bir çabayı finanse ediyor. Aranan OpenBioMLgirişimin ilk projeleri, DNA dizilimi, protein katlama ve hesaplamalı biyokimyaya yönelik makine öğrenimine dayalı yaklaşımlara odaklanacak.

Şirketin kurucuları OpenBioML’yi bir “açık araştırma laboratuvarı” olarak tanımlıyor ve Stability AI CEO’su Emad Mostaque’a göre öğrencilerin, profesyonellerin ve araştırmacıların katılıp işbirliği yapabileceği bir ortamda AI ve biyolojinin kesişimini keşfetmeyi hedefliyor.

Mostaque, TechCrunch’a bir e-posta röportajında ​​​​“OpenBioML, Stability’nin desteklediği bağımsız araştırma topluluklarından biridir” dedi. “İstikrar, yapay zekayı geliştirmeyi ve demokratikleştirmeyi hedefliyor ve OpenBioML aracılığıyla bilim, sağlık ve tıpta son teknolojiyi geliştirme fırsatı görüyoruz.”

Stability AI’nin OpenAI’nin DALL-E 2’sine benzer şekilde metin açıklamalarından sanat üreten AI sistemi olan Stability AI’nin AI sistemi etrafındaki tartışmalar göz önüne alındığında, Stability AI’nin sağlık alanındaki ilk girişimine karşı anlaşılır bir şekilde temkinli olabilir. Girişim, yönetişime laissez-faire yaklaşımı benimseyerek geliştiricilerin sistemi ünlülerin derin sahtekarlıkları ve pornografisi de dahil olmak üzere istedikleri gibi kullanmalarına izin verdi.

Stabilite AI’nın bugüne kadarki etik açıdan sorgulanabilir kararları bir yana, tıpta makine öğrenimi bir mayın tarlasıdır. Teknoloji, diğerlerinin yanı sıra cilt ve göz hastalıkları gibi durumları teşhis etmek için başarıyla uygulanmış olsa da, araştırmalar algoritmaların bazı hastalar için daha kötü bakıma yol açan önyargılar geliştirebileceğini göstermiştir. Nisan 2021 ders çalışmaÖrneğin, ruh sağlığı hastalarında intihar riskini tahmin etmek için kullanılan istatistiksel modellerin beyaz ve Asyalı hastalar için iyi, Siyah hastalar için kötü performans gösterdiğini buldu.

OpenBioML akıllıca daha güvenli bir bölge ile başlıyor. İlk projeleri şunlardır:

  • BioLMDoğal dil işleme (NLP) tekniklerini hesaplamalı biyoloji ve kimya alanlarına uygulamayı amaçlayan ,
  • DNA-Difüzyonmetin istemlerinden DNA dizileri oluşturabilen AI geliştirmeyi amaçlayan
  • LibreFoldDeepMind’in AlphaFold 2’sine benzer AI protein yapısı tahmin sistemlerine erişimi artırmayı amaçlayan

Her proje bağımsız araştırmacılar tarafından yönetiliyor, ancak Stabilite AI, AI sistemlerini eğitmek için AWS tarafından barındırılan 5.000’den fazla Nvidia A100 GPU kümesine erişim şeklinde destek sağlıyor. Niccolò Zanichelli’ye göre, Parma Üniversitesi’nde bilgisayar bilimi lisansı ve önde gelen araştırmacılardan biri. OpenBioML, bu olacak 10 farklı AlphaFold 2 benzeri sistemi paralel olarak eğitmek için yeterli işlem gücü ve depolama.

“Pek çok hesaplamalı biyoloji araştırması şimdiden açık kaynaklı yayınlara yol açıyor. Ancak, bunların çoğu tek bir laboratuvar düzeyinde gerçekleşir ve bu nedenle genellikle yetersiz hesaplama kaynakları nedeniyle kısıtlanır, ”diyor Zanichelli TechCrunch’a e-posta yoluyla. Büyük ölçekli işbirliklerini teşvik ederek ve Stability AI’nin desteği sayesinde bu işbirliklerini yalnızca en büyük endüstriyel laboratuvarların erişebildiği kaynaklarla destekleyerek bunu değiştirmek istiyoruz.”

DNA dizileri oluşturma

Nın-nin OpenBioML’nin devam eden projeleri, Patoloji profesörü Luca Pinello’nun Massachusetts Genel Hastanesi ve Harvard Tıp Okulu’ndaki laboratuvarı tarafından yönetilen DNA-Diffüzyon, belki de en iddialı olanıdır. Amaç, bir organizma içindeki belirli genlerin ekspresyonunu etkileyen DNA’nın “düzenleyici” dizilerinin veya nükleik asit moleküllerinin bölümlerinin kurallarını öğrenmek ve uygulamak için üretken AI sistemlerini kullanmaktır. Birçok hastalık ve bozukluk, yanlış düzenlenmiş genlerin sonucudur, ancak bilim, bu düzenleyici dizileri tanımlamak için – çok daha az değişmekle – güvenilir bir süreç henüz keşfetmedi.

DNA-Diffüzyon, hücre tipine özgü düzenleyici DNA dizileri oluşturmak için bir difüzyon modeli olarak bilinen bir tür AI sisteminin kullanılmasını önerir. Stable Difüzyon ve OpenAI’nin DALL-E 2’si gibi görüntü oluşturucuları destekleyen difüzyon modelleri, mevcut birçok veri örneğinin nasıl yok edileceğini ve kurtarılacağını öğrenerek yeni veriler (örn. DNA dizileri) oluşturur. Örnekleri besledikçe, modeller yeni işler oluşturmak için daha önce yok ettikleri tüm verileri kurtarma konusunda daha iyi hale geliyor.

Kararlılık AI OpenBioML

Resim Kredisi: OpenBioML

Zanichelli, “Difüzyon, çok modlu üretken modellerde yaygın bir başarı gördü ve şimdi, örneğin yeni protein yapılarının üretilmesi için hesaplamalı biyolojiye uygulanmaya başlıyor.” Dedi. “DNA-Diffusion ile şimdi onun genomik dizilere uygulanmasını araştırıyoruz.”

Her şey plana göre giderse, DNA-Diffüzyon projesi, “X hücre tipinde bir geni maksimum ekspresyon seviyesine kadar aktive edecek bir dizi” ve “Bir dizilim” gibi metin talimatlarından düzenleyici DNA dizileri üretebilen bir difüzyon modeli üretecektir. karaciğerde ve kalpte bir geni aktive ediyor ama beyinde değil.” Zanichelli, böyle bir modelin düzenleyici dizilerin bileşenlerini yorumlamaya da yardımcı olabileceğini söylüyor ve bu da bilimsel topluluğun farklı hastalıklarda düzenleyici dizilerin rolüne ilişkin anlayışını geliştiriyor.

Bunun büyük ölçüde teorik olduğunu belirtmekte fayda var. Difüzyonun protein katlanmasına uygulanmasıyla ilgili ön araştırmalar görünürken umut vericiçok erken günler, diye itiraf ediyor Zanichelli – bu nedenle daha geniş AI topluluğunu dahil etme baskısı.

Protein yapılarını tahmin etme

OpenBioML’nin LibreFold’u, kapsamı daha küçük olsa da, hemen meyve verme olasılığı daha yüksektir. Proje, protein yapılarını öngören makine öğrenimi sistemlerinin daha iyi anlaşılmasına ve bunları geliştirmenin yollarına ulaşmaya çalışıyor.

Meslektaşım Devin Coldewey, DeepMind’in AlphaFold 2 üzerindeki çalışmasıyla ilgili yazısında ele aldığı gibi, protein şeklini doğru bir şekilde tahmin eden AI sistemleri sahnede nispeten yenidir ancak potansiyelleri açısından dönüştürücüdür. Proteinler, canlı organizmalarda farklı görevleri yerine getirmek için şekillere katlanan amino asit dizilerinden oluşur. Bir asit dizisinin hangi şekli oluşturacağını belirleme süreci, bir zamanlar zorlu, hataya açık bir girişimdi. AlphaFold 2 gibi yapay zeka sistemleri bunu değiştirdi; onlar sayesinde, insan vücudundaki protein yapılarının %98’inden fazlası ve E. coli ve maya gibi organizmalardaki yüz binlerce başka yapı bugün bilim tarafından bilinmektedir.

Yine de birkaç grup, bu tür bir yapay zeka geliştirmek için gerekli mühendislik uzmanlığına ve kaynaklarına sahiptir. DeepMind, AlphaFold 2’yi Google’ın maliyetli AI hızlandırıcı donanımı olan tensör işleme birimleri (TPU’lar) konusunda eğitmek için günlerce harcadı. Ve asit dizisi eğitim veri setleri genellikle tescillidir veya ticari olmayan lisanslar altında yayınlanır.

Üç boyutlu yapılarına katlanan proteinler. Resim Kredisi: Christoph Burgstedt/Bilim Fotoğraf Kütüphanesi / Getty Images

Zanichelli, DeepMind’ın geçen yıl piyasaya sürdüğü eğitimli AlphaFold 2 modeline atıfta bulunarak, “Bu üzücü, çünkü topluluğun DeepMind tarafından yayınlanan AlphaFold 2 kontrol noktasının üzerine inşa edebildiklerine bakarsanız, kesinlikle inanılmaz” dedi. . “Örneğin, piyasaya sürülmesinden sadece birkaç gün sonra, Seul Ulusal Üniversitesi profesörü Minkyung Baek, Twitter’da modelin tahmin etmesine izin veren bir numara bildirdi. kuaterner yapılar – Modelin yapabileceğini çok az kişinin beklediği bir şey. Bu türden çok daha fazla örnek var, bu yüzden, tamamen yeni AlphaFold benzeri protein yapısı tahmin yöntemlerini eğitme kabiliyetine sahip olsaydı, daha geniş bilim camiasının neler inşa edebileceğini kim bilebilir?”

AlphaFold 2’yi çoğaltmak için devam eden iki topluluk çalışması olan RoseTTAFold ve OpenFold’un çalışmalarına dayanarak, LibreFold, çeşitli protein katlanma tahmin sistemleriyle “büyük ölçekli” deneyleri kolaylaştıracak. Zanichelli’ye göre University College London, Harvard ve Stockholm’deki araştırmacıların öncülük ettiği LibreFold’un odak noktası, sistemlerin neyi ve neden başarabileceğini daha iyi anlamak olacak.

“LibreFold, özünde topluluk tarafından, topluluk için bir projedir. Aynı şey, hem model kontrol noktalarının hem de veri setlerinin serbest bırakılması için de geçerlidir, çünkü ilk çıktıları yayınlamaya başlamamız sadece bir veya iki ay sürebilir veya önemli ölçüde daha uzun sürebilir” dedi. “Bu, benim sezgim, birincisinin daha muhtemel olduğu” dedi.

NLP’yi biyokimyaya uygulamak

Daha uzun bir zaman ufkunda OpenBioML’ler “NLP’den türetilen dil modelleme tekniklerini biyokimyasal dizilere uygulamak” gibi belirsiz bir misyona sahip olan BioLM projesi. Birkaç açık kaynaklı metin oluşturma modeli yayınlayan bir araştırma grubu olan EleutherAI ile işbirliği içinde BioLM, protein dizileri oluşturmak da dahil olmak üzere bir dizi görev için yeni “biyokimyasal dil modelleri” eğitmeyi ve yayınlamayı umuyor.

Zanichelli Salesforce’a işaret ediyor ProGen BioLM’nin girişebileceği iş türlerine bir örnek olarak. ProGen, amino asit dizilerini bir cümledeki kelimeler gibi ele alır. 280 milyondan fazla protein dizisi ve ilişkili meta verilerden oluşan bir veri kümesi üzerinde eğitilen model, bir cümlenin sonunu başından tahmin eden bir dil modeli gibi, önceki amino asitlerin bir sonraki kümesini tahmin eder.

Nvidia bu yılın başlarında bir dil modeli yayınladı, MegaMolBARTBu, potansiyel ilaç hedeflerini araştırmak ve kimyasal reaksiyonları tahmin etmek için milyonlarca molekülden oluşan bir veri kümesi üzerinde eğitildi. Meta da son zamanlarda eğitimli Protein dizileri üzerinde ESM-2 adlı bir NLP, şirketin iddia ettiği bir yaklaşım, sadece iki hafta içinde 600 milyondan fazla protein için dizileri tahmin etmesine izin verdi.

Meta protein katlanması

Meta sistemi tarafından tahmin edilen protein yapıları. Resim Kredisi: Meta

İleriye bakmak

OpenBioML’nin ilgi alanları geniş (ve genişleyen) olsa da, Mostaque, bilim ve tıpta açık araştırma geleneğini takip ederek “biyolojide makine öğrenimi ve yapay zekanın pozitif potansiyelini en üst düzeye çıkarma” arzusuyla birleştiklerini söylüyor.

Mostaque, “Araştırmacıların aktif öğrenme veya model doğrulama amaçları için deneysel ardışık düzenleri üzerinde daha fazla kontrol sahibi olmalarını sağlamak istiyoruz,” diye devam etti. “Ayrıca, şu anda hesaplamalı biyolojinin çoğunu karakterize eden özel mimariler ve öğrenme hedeflerinin aksine, giderek daha genel biyoteknoloji modelleriyle son teknolojiyi zorlamak istiyoruz.”

Ancak – yakın zamanda 100 milyon doları aşan VC destekli bir başlangıçtan beklenebileceği gibi – Stability AI, OpenBioML’yi tamamen hayırsever bir çaba olarak görmüyor. Mostaque, şirketin “yeterince gelişmiş ve güvenli olduğunda ve doğru zaman geldiğinde” OpenBioML’den ticarileştirme teknolojisini keşfetmeye açık olduğunu söylüyor.



genel-24