Si una computadora comienza a buscar causas, las cosas pueden salir completamente mal


¿Cómo cambiará el clima en el futuro próximo? ¿Fue eficaz la campaña de refuerzo para aumentar la resistencia al coronavirus? ¿Cuándo se puede dar de alta de forma segura a un paciente del hospital? ¿Qué sucede si los precios de la energía se mantienen bajos?

Todas estas son preguntas que se basan en una pregunta causal. Joris Mooij, profesor de estadística matemática en la Universidad de Amsterdam, investiga cómo podemos encontrar conexiones causales basadas en datos. En realidad, todavía no existe una buena manera de hacer esto. Con este método, la IA también podría buscar causalidad, aunque esto todavía no es posible.

Para lo que son buenos las estadísticas y algoritmos existentes es para encontrar correlaciones. Por ejemplo, los datos pueden mostrar una correlación entre el consumo de drogas y los trastornos psiquiátricos: las personas que consumen más drogas tienen más probabilidades de sufrir un trastorno psiquiátrico.

Pero eso no significa que el consumo de drogas también cause el trastorno psiquiátrico. También podría ser al revés: un bienestar mental deficiente hace que las personas sean más propensas a necesitar sedantes. Mooij: “Encontrar una asociación en los datos es muy sencillo. Pero la causalidad es más difícil”.

En este momento, la única manera de responder realmente a una pregunta causal en ciencia es realizar ensayos controlados aleatorios (ECA). «Este tipo de investigación se inventó ya en 1648, pero sigue siendo el estándar de oro para hacer predicciones causales».

En un ensayo controlado aleatorio, los investigadores dividen lo que quieren estudiar, por ejemplo personas, en dos grupos de la forma más aleatoria posible y realizan un cambio en un grupo. Luego ven si esto tiene alguna consecuencia para ese grupo y no para el otro, el grupo de control.

Por ejemplo, para investigar si la vacuna de refuerzo funciona bien, los médicos podrían administrar la vacuna a un grupo de personas y no al otro grupo, y luego ver si un grupo termina en el hospital con más frecuencia. En este caso, habría motivos para suponer que en realidad es la vacuna de refuerzo la que hace que las personas tengan menos probabilidades de enfermarse gravemente.

Definir la causalidad es realmente difícil. Filósofos y científicos llevan siglos preguntándose sobre esto.

Por razones éticas o prácticas, muchas veces no es posible realizar este tipo de investigación. El RIVM puede examinar los datos posteriormente y realizar cálculos de probabilidad sobre ellos. Si descubrieran que las personas con una dosis de refuerzo enfermaban con menos frecuencia o menos gravedad a causa del coronavirus, podrían pensar que la vacuna realmente funcionó bien.

Pero aquí es donde, según Mooij, la gente se inclina a menudo demasiado rápidamente a sacar conclusiones causales, cuando en realidad esto todavía no es posible. En este caso, por ejemplo, también puede ser que las personas que toman una dosis de refuerzo ya sean más cuidadosas y, por tanto, menos propensas a enfermarse. Que no es por el refuerzo. «Así, a menudo se ve que las cosas van mal, incluso en los titulares, por ejemplo. Puede que se haya demostrado una correlación, pero a menudo se interpreta rápidamente como una relación causal».

¿Cuándo podemos realmente hablar de una relación causal?

“Oh, definir la causalidad es realmente difícil. Filósofos y científicos llevan siglos preguntándose sobre esto. Es un poco como cuando quieres definir otros conceptos fundamentales, como el tiempo o el espacio.

“Si me pides que dé la mejor definición posible, podrías decir que A es una causa de B si una perturbación externa que cambia el valor de A también cambia el valor de B o conduce a una mayor probabilidad de que el valor de B aumente. cambiar.

“Es extremadamente difícil dar una definición más precisa. Pero lo que podemos hacer es estudiar objetos matemáticos que proporcionen un buen modelo de causalidad. Por lo tanto, las definiciones matemáticas pueden captar bien ese concepto”.

¿Por qué crees que no se han desarrollado antes métodos matemáticos para encontrar relaciones causales?

“Durante mucho tiempo existió en las estadísticas la idea de que la causalidad no formaba parte de ellas. Pearson, uno de los fundadores de la estadística, siempre ha sido muy enfático en que con la estadística sólo se debe intentar demostrar correlaciones. El paso hacia la causalidad aún no estaba tan claro y prefirieron dejarlo en manos de expertos en el campo.

Foto Merlijn Doomernik

“Todavía no es una parte estándar de las estadísticas. Por ejemplo, aún no está incluido en el curso de introducción a la estadística que toman los estudiantes de matemáticas. En lo que a mí respecta, la causalidad es realmente parte de esto, porque también se trata de interpretar datos utilizando la teoría de la probabilidad.

“La causalidad también es relativamente nueva en la IA y la informática. Cuando comencé hace diez años y propuse impartir un curso sobre causalidad en informática, fue inmediatamente rechazado. Y ahora creo que tienen tres cursos sobre causalidad. También es relativamente reciente dentro del aprendizaje automáticocomunidad que las cuestiones causales son muy importantes”.

¿Por qué la causalidad es relevante en esto?

“El aprendizaje automático es el enfoque que se ha vuelto dominante dentro de la IA en los últimos diez años. Pero en principio también es sólo una forma de estadística. Los algoritmos de aprendizaje automático buscan patrones en los datos. Por ejemplo, puede desarrollar un algoritmo que prediga el tiempo que hará mañana basándose en el tiempo de la semana pasada. Luego se entrena sobre cómo ha sido el clima en el pasado. Pero no hará ninguna predicción causal real.

De lo que desconfío es de que cada vez se subcontratan más decisiones a algoritmos.

IA causal ahora se ha convertido en una exageración. El aprendizaje automático se aplica cada vez más y cada vez hay más datos disponibles. Ahora descubrimos que, para algunas preguntas, el aprendizaje automático estándar en realidad no funciona tan bien. Por ejemplo, si un algoritmo se entrena en un entorno y se utiliza en otro, las cosas pueden salir completamente mal. Por ejemplo, si hay una semana con un clima loco que el algoritmo nunca antes había visto, puede hacer una predicción incorrecta”.

Predecir algo equivocado nuevamente no es un desastre. ¿Puede realmente tener consecuencias importantes?

“Sí, un hecho sobre el que tengo dudas es que cada vez más decisiones se subcontratan a algoritmos. ¿Califica para un préstamo? ¿Hay motivos para pensar que está cometiendo un fraude o que es un delincuente? ¿Ya te pueden dar el alta de cuidados intensivos o es mejor quedarte en cama un rato?

“Por ejemplo, un algoritmo que decide si un paciente puede ser dado de alta de cuidados intensivos puede basarse en datos existentes sobre los pacientes dados de alta por los médicos. El problema es que cuando los médicos han hecho bien su trabajo, este algoritmo casi no ve ejemplos de casos en los que las cosas salgan mal. Como el algoritmo sólo analiza las correlaciones, puede cometer errores muy básicos.

“Si quieres entrenar un algoritmo para tomar decisiones, siempre obtendrás distorsiones en los datos. Lo bueno es que podemos corregir ese tipo de distorsiones con métodos causales”.

¿Cómo funciona ese método causal?

“Ahora estoy escribiendo un artículo sobre un método para demostrar que no había pruebas claras de discriminación en un conocido conjunto de datos de 1973 de la Universidad de Berkeley en California. Los datos mostraron que existía una correlación entre el género y las posibilidades de ser admitido en un curso. El riesgo era menor para las mujeres que para los hombres.

“Para ver si realmente existe una relación causal entre el género y las posibilidades de admisión, se pueden observar las explicaciones hipotéticas que existen para los datos. Una explicación es que el comité de admisiones realmente tenía preferencia por los estudiantes varones. Pero otra explicación, por ejemplo, es que hay una variable interviniente que afecta el género y que hace menos probable que los estudiantes sean aceptados.

“En este caso, el segundo escenario puede explicar los datos. Y efectivamente resultó que hubo una causa interviniente: el departamento en el que se matriculan los estudiantes. Debido a que las mujeres tenían más probabilidades de postularse para carreras como humanidades, donde era más difícil ser aceptadas en Berkeley, tenían menos probabilidades de ser aceptadas. Pero el género no es la causa directa”.

¿Puede un método de este tipo realmente encontrar conexiones causales en los datos con certeza?

“Lo que podemos decir con certeza en el ejemplo de Berkeley es que no hay evidencia de discriminación en los datos. Puede que todavía haya discriminación, pero estos datos no lo demuestran.

“En general, una de las cosas difíciles en este campo es que a menudo resulta difícil demostrar que un método causal matemático de este tipo funciona. Porque muchas veces no sabemos con certeza cuáles son exactamente las relaciones causales. La única manera de descubrir que una predicción causal es correcta es si usted mismo también puede realizar cambios para probar las consecuencias de dicho cambio. Sólo tenemos un Berkeley en los años 70, nada puede cambiar eso ahora.

“Pude verificar otro método causal con datos de un estudio sobre células de levadura. En Utrecht, los científicos han investigado cómo los diferentes genes de esas células se influyen entre sí. Durante cinco años, los robots realizaron todo tipo de experimentos en esas células. Luego utilizamos parte de los datos para predecir que un determinado gen tenía un efecto sobre otro gen. Y luego pudimos verificar la predicción con los datos recopilados más tarde, después de que los investigadores cambiaron algo.

Durante cinco años, robots realizaron todo tipo de experimentos en esas células

“Pero esa investigación cuesta millones. Es muy difícil encontrar más conjuntos de datos como este. Ahora me he asociado con Booking.com y quieren ver, por ejemplo, el efecto de colocar determinados anuncios en la parte superior. Luego puedo usar esto para probar mis métodos causales”.

¿Cómo se puede aplicar en la práctica un método tan causal?

“Aún no hemos desarrollado un algoritmo que pueda aplicar este método por sí solo. Ahora sigue siendo una cuestión de trabajo humano. Pero en principio queremos crear tales algoritmos. De esta manera podemos mejorar las técnicas de aprendizaje automático permitiéndoles proponer diferentes escenarios causales hipotéticos, probarlos con los datos y así buscar conexiones causales.

“En principio, gran parte de las cuestiones en la ciencia, pero también en la sociedad, son causales. Pero creo que esta forma de aprendizaje automático que busca conexiones causales será especialmente adecuada para cuestiones de biología y economía, por ejemplo. En biología existen sistemas causales muy complejos, como los genes de esas células de levadura.

“Es simplemente imposible investigar los vínculos causales entre esas células de levadura sin el aprendizaje automático. Entonces alguien tiene que examinar por sí mismo 25 millones de pares de genes. Es realmente como buscar una aguja en un pajar”.






ttn-es-33