Batalla de los chatbots: ¿cómo se compara GPT-4 con Bard?


OpenAI, respaldado por Microsoft, y Google han lanzado chatbots basados ​​en inteligencia artificial en las últimas semanas. Sus respectivos motores de conversación, ChatGPT Plus y Bard, difieren en la forma en que responden a consultas complejas, ingiere texto y genera respuestas creativas.

Los chatbots están capacitados para generar sus respuestas utilizando datos escritos de Internet, como los millones de palabras escritas en sitios web como Wikipedia, libros y otros documentos, para predecir la próxima palabra probable en una oración. Esto les permite dar respuestas asombrosamente plausibles que imitan el habla humana.

OpenAI y Google han sido opacos sobre cómo se construyeron sus modelos. Sin embargo, es probable que sus datos y objetivos de entrenamiento sean distintos.

Bard está capacitado específicamente para entablar un diálogo que suene natural, mientras que el objetivo de GPT-4 es generar respuestas detalladas sobre una amplia gama de temas. GPT-4 también está desconectado de Internet y solo tiene conocimiento de los eventos hasta septiembre de 2021. Aparentemente, Bard puede traer resultados de la búsqueda de Google, aunque eso no parece mejorar la calidad de sus respuestas.

Queríamos probar aún más la capacidad de los chatbots, involucrándolos en tareas que se acerquen a la creatividad, el estilo y la imaginación. Aquí están los resultados, y cómo los expertos humanos del FT los calificaron.


Resumiendo un análisis FT

Pedimos a los chatbots que resumieran el análisis reciente del FT sobre la venta del banco suizo Credit Suisse a su archirrival UBS.

ChatGPT-4 respondió con:

Bard no nos permitió ingresar la historia completa a la vez, por lo que estaba en una desventaja natural. Este fue su resumen tomando texto de la primera mitad de la historia de FT.

Un resumen del artículo vinculado anteriormente por Bard de Google

Owen Walker, corresponsal bancario europeo, escribe:

Esa es una descripción bastante impresionante. [by GPT-4]. El único error ahí es que deberían ser $5 billones en activos «bajo administración», pero eso no estaba claro en el artículo original, por lo que es excusable.

La respuesta de Bard, aunque precisa, parece más formulista y forzada que la primera. También hay una repetición del párrafo introductorio como resumen.


¿Puede AI elegir al próximo ganador del mercado de valores?

Les dimos a los dos chatbots las reglas del concurso anual de selección de valores de FT. Los concursantes deben elegir cinco acciones de todo el mundo y tomar una posición larga o corta, apostando a que las acciones subirán o bajarán. El ganador es la persona que genera la mayor rentabilidad global de su cartera. Les pedimos a los bots que predijeran para 2023, pero GPT-4 dijo que tenía un límite de conocimiento de septiembre de 2021, mientras que se desconoce el límite de Bard. Así es como lo hicieron.

Elegido por ChatGPT-4

  1. tesla

  2. Amazonas

  3. nvidia

  4. microsoft

  5. Moderna

Elegido por Bardo

  1. tesla

  2. Manzana

  3. microsoft

  4. Alfabeto

  5. Amazonas

Robin Wigglesworth, editor de Alphaville, escribe:

Tanto GPT-4 como Bard eligieron carteras bastante similares: en su mayoría, acciones de tecnología de primer nivel que ya habían tenido un buen desempeño en su mayoría en septiembre de 2021, mostrando una tendencia muy humana a saltar sobre los ganadores.

Ambos eligieron a Tesla, Amazon y Microsoft. Bard traicionó un sesgo local al elegir a su fabricante Alphabet además de Apple, mientras que GPT-4 se reveló como un impulsor del impulso al elegir a Nvidia y al fabricante de vacunas Covid-19 Moderna.

Los resultados principales (un rendimiento del 74,4 % en 2021 para GPT-4 y del 40,5 % para Bard) parecen buenos. Pero si solo miramos los resultados desde que fueron elegidos y al final del año, sus ganancias caen al 16,3 por ciento y al 21,1 por ciento, respectivamente.

Ejemplo de explicación dada por los dos modelos de IA

Esto aún puede parecer respetable, pero la inclinación de la IA generativa de saltar a las acciones tecnológicas de moda lo habría castigado cuando las tasas de interés comenzaron a aumentar en 2022. Las carteras de ChatGPT-4 y Bard perdieron más del 40 por ciento el año pasado. El índice S&P 500 solo perdió un 19,4 por ciento.


¿Puede la IA contar un chiste?

Les pedimos a ambos chatbots que nos contaran un chiste y luego por qué era divertido. Elegimos lo que pensamos que sería un tema difícil para bromear. Puedes juzgar los resultados aquí por ti mismo.

En primer lugar, el esfuerzo de ChatGPT:

Está viendo una instantánea de un gráfico interactivo. Es muy probable que esto se deba a que está desconectado o JavaScript está deshabilitado en su navegador.

A continuación, Bardo:

Está viendo una instantánea de un gráfico interactivo. Es muy probable que esto se deba a que está desconectado o JavaScript está deshabilitado en su navegador.


¿Puede AI imaginar una conversación?

Queríamos probar cómo funcionan los chatbots en tareas que requerirían un pensamiento creativo en humanos. Así que le pedimos a GPT-4 y Bard que realizaran una conversación imaginaria entre Xi Jinping y Vladimir Putin durante una visita de estado.

Aquí hay un extracto de lo que dijo GPT-4:

Y aquí hay un extracto de la toma de Bard:

Gideon Rachman, comentarista jefe de Asuntos Exteriores, escribe:

Estoy seguro de que gran parte de lo que Putin y Xi se dicen son bromas vacías. Pero desafía la credulidad creer que sus conversaciones son tan suaves y sin contenido.

Estos son dos líderes con temas vitales para discutir. ChatGPT y Google Bard parecen creer que seguirán la guía diplomática de Basil Fawlty: «No menciones la guerra». Eso es obviamente ridículo. La guerra de Ucrania habrá sido el tema central de su conversación en Moscú. La pregunta interesante es cuán franca sería su discusión. Sospecho que probablemente serían bastante vagos entre sí. Pero es posible que la conversación se vuelva muy contundente.

Aquí está mi suposición de cómo podría ir la conversación:

xi — Me interesaría tu visión de cómo va la guerra y cómo ves que llega a su fin.

putin — Entiendo tu preocupación. Seguimos decididos a liberar a Ucrania del fascismo y derrotar la interferencia estadounidense en nuestra región. Los problemas de nuestras fuerzas están relacionados con la enorme cantidad de armamento que Estados Unidos y la OTAN han vertido en Ucrania. Francamente, nos ayudaría mucho si China pudiera suministrarnos misiles y otras municiones que son vitales para nuestra lucha.

xi — Entiendo su solicitud y la consideraré con mucho cuidado. Pero esta es una situación de extrema sensibilidad, como comprenderá. Creo que deberíamos delegar a nuestros funcionarios para que consideren áreas en las que podríamos cooperar.

China también desea desempeñar un papel en el proceso de paz para Ucrania. ¿Qué podemos hacer para ayudar allí?

putin — Apreciamos mucho el plan de paz chino. Pero creemos que aún no ha llegado el momento de que hables con Zelenskyy.

Si ChatGPT o GoogleBard estuvieran a la altura de su trabajo, ese es el tipo de cosa que se les podría haber ocurrido. En este momento, no estoy preocupado por las carreras de los diplomáticos del mundo.


¿Puede AI escribir un eslogan publicitario?

Le pedimos a cada chatbot que creara un nuevo eslogan para una empresa imaginaria de postres gourmet para perros. Aquí está su intento. También usamos las dos respuestas para generar imágenes relevantes, usando el software de IA de texto a imagen Midjourney.

Imagen generada a partir del aviso de Midjourney: «diseño del sitio web, página de inicio, UX, «Deleite a su perro: deliciosos postres para perros distinguidos», colores brillantes, — ar 16:9 — v5»

Imagen generada a partir del aviso de Midjourney: «diseño del sitio web, página de inicio, UX, «Deliciosos postres para perros que harán que tu cachorro pida más», colores brillantes, — ar 16:9 — vs 5»

Harry Haydon, estratega de marca, FT, escribe:

Si se tratara de un lanzamiento entre dos agencias de publicidad, GPT-4 se dirigiría al pub para tomar una copa de celebración, mientras que el gerente de cuentas de Bard regresaría a la oficina para que lo regañaran.

Bardo comete el pecado capital de completamente perdiendo el resumen, confiando en cambio en el uso extraño de un cliché perezoso para su eslogan «Deliciosas golosinas que hacen que tu perro ruegue por más». Ese eslogan habría dejado a su cliente de comida gourmet para perros rascándose la cabeza preguntándose exactamente cómo hacía que su producto fuera diferente de cualquier otra comida para perros. La USP del producto es claramente su calidad superior, como se explica en el resumen.

GPT-4 clava el resumen con el eslogan: «Consienta a su perro: deliciosos postres para perros distinguidos». No hay duda de que estás viendo un anuncio de comida para perros elegante. También puntos de bonificación por el uso de gráficos que presentan el enfoque omnicanal de la agencia en diferentes plataformas digitales.

En realidad, ambos anuncios se parecen a cosas creadas por personas que no saben cómo hacer anuncios. Los robots no llegarán todavía, pero no están a un millón de millas de distancia.

Producción de video por Rory Griffiths



ttn-es-56