{"id":1457857,"date":"2024-11-26T11:47:28","date_gmt":"2024-11-26T11:47:28","guid":{"rendered":"https:\/\/teknomers.com\/es\/subtitulos-para-peliculas-y-series-una-mina-de-oro-para-las-empresas-de-inteligencia-artificial\/"},"modified":"2024-11-26T11:47:33","modified_gmt":"2024-11-26T11:47:33","slug":"subtitulos-para-peliculas-y-series-una-mina-de-oro-para-las-empresas-de-inteligencia-artificial","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/subtitulos-para-peliculas-y-series-una-mina-de-oro-para-las-empresas-de-inteligencia-artificial\/","title":{"rendered":"Subt\u00edtulos para pel\u00edculas y series: una mina de oro para las empresas de inteligencia artificial"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p>A medida que se generaliza el uso de tecnolog\u00edas de inteligencia artificial, surge un debate sobre la legitimidad de determinadas pr\u00e1cticas. La explotaci\u00f3n masiva de subt\u00edtulos de pel\u00edculas y series para entrenar estas IA plantea dudas sobre el respeto de los derechos de autor. En este contexto, se destacan varias grandes empresas tecnol\u00f3gicas.<\/p>\n<h2>Usar subt\u00edtulos para entrenar modelos de lenguaje<\/h2>\n<p>Desde hace varios a\u00f1os, gigantes como Apple, Meta, Nvidia y Salesforce utilizan vol\u00famenes considerables de datos para perfeccionar sus modelos ling\u00fc\u00edsticos. Entre estos datos se encuentran subt\u00edtulos de multitud de pel\u00edculas y series de televisi\u00f3n. Seg\u00fan distintas fuentes, estas repeticiones de di\u00e1logos permiten a los modelos imitar de forma colosal el habla humana, m\u00e1s all\u00e1 de los textos acad\u00e9micos o period\u00edsticos.<\/p>\n<p>Este m\u00e9todo se basa en particular en la inclusi\u00f3n de subt\u00edtulos en bases de datos como <strong>la pila<\/strong>alojado en OpenSubtitles.org. Esta plataforma ofrece m\u00e1s de 53.000 pel\u00edculas y 85.000 episodios de series, lo que proporciona una biblioteca sustancial para los desarrolladores de IA.<\/p>\n<h2>Las empresas afectadas y su enfoque<\/h2>\n<p>Se han identificado varias empresas que utilizan este m\u00e9todo. Este es particularmente el caso de<strong>antr\u00f3pico<\/strong>que utiliza estos subt\u00edtulos para su competidor directo de ChatGPT, Claude. Meta y Apple est\u00e1n haciendo lo mismo para desarrollar sus familias de modelos LLM y OPT respectivamente. Otros actores como Nvidia, Bloomberg y EleutherAI tambi\u00e9n est\u00e1n explotando esta masa de datos para fortalecer sus capacidades de inteligencia artificial.<\/p>\n<p>Todas estas empresas buscan construir sistemas capaces de generar di\u00e1logos m\u00e1s naturales y humanos. De hecho, &#8220;escribir bien&#8221; es un recurso poco com\u00fan en el mundo de los datos de entrenamiento de IA. Por lo tanto, recurrir al di\u00e1logo escrito para los subt\u00edtulos proporciona una valiosa ventana a los matices y ritmos exclusivos de la conversaci\u00f3n hablada.<\/p>\n<h2>Un uso controvertido y fuente de conflictos legales<\/h2>\n<p>Sin embargo, esta explotaci\u00f3n no est\u00e1 exenta de controversia. Se han iniciado varias acciones legales contra las empresas incriminadas, acusadas de utilizar obras protegidas por derechos de autor sin permiso. Guionistas, autores y editoriales alegan vulneraciones de sus derechos. El creador de Breaking Bad, Vince Gilligan, calific\u00f3 la pr\u00e1ctica como \u201cplagio extraordinariamente complejo y que consume mucha energ\u00eda\u201d ante la Oficina de Derechos de Autor de Estados Unidos.<\/p>\n<p>En su defensa, las empresas afirman que entrenar sistemas de IA en obras protegidas por derechos de autor constituye un uso leg\u00edtimo, aunque esta afirmaci\u00f3n a\u00fan espera una validaci\u00f3n legal final. Desde la perspectiva del derecho de autor, los tribunales podr\u00edan considerar los subt\u00edtulos como obras derivadas, disfrutando as\u00ed de la misma protecci\u00f3n contra la copia y distribuci\u00f3n ilegales.<\/p>\n<h2>El papel de los subt\u00edtulos en el rendimiento de la IA<\/h2>\n<p>\u00bfPor qu\u00e9 esta elecci\u00f3n particular de subt\u00edtulos? Porque representan una forma cruda y esencial de di\u00e1logo escrito. A diferencia de los libros de texto o art\u00edculos cient\u00edficos, los subt\u00edtulos capturan con precisi\u00f3n el flujo, el tono y la cadencia de las conversaciones humanas. Esto permite a los chatbots, que dependen de estos datos, producir un discurso que suene naturalmente humano.<\/p>\n<p>El aporte de los subt\u00edtulos no termina ah\u00ed. Estos fragmentos de texto tambi\u00e9n se utilizan para modular respuestas generadas autom\u00e1ticamente en diferentes contextos: televisi\u00f3n, cine e incluso educativo. Ayudan a las inteligencias artificiales a enriquecer su repertorio ling\u00fc\u00edstico, yendo m\u00e1s all\u00e1 de los grandes cl\u00e1sicos de la literatura para representar la diversidad de las interacciones verbales actuales.<\/p>\n<h2>La posici\u00f3n de los creadores originales.<\/h2>\n<p>Lamentablemente, este uso de subt\u00edtulos plantea un dilema \u00e9tico y legal. Por un lado, los desarrolladores e investigadores se benefician de una gran cantidad de informaci\u00f3n ling\u00fc\u00edstica accesible y gratuita. Por otro lado, los escritores y creadores ven c\u00f3mo se utiliza su obra sin su conocimiento y sin una remuneraci\u00f3n adecuada.<\/p>\n<p>Una opini\u00f3n compartida por los representantes de los autores brit\u00e1nicos (WGGB), que exigen una regulaci\u00f3n estricta y el establecimiento de compensaciones para los creadores afectados por esta pr\u00e1ctica. Incluso algunos creadores de conjuntos de datos, como J\u00f6rg Tiedemann, expresan su preocupaci\u00f3n por el mal uso de su contribuci\u00f3n inicial, considerada \u00fatil pero ahora invasiva para el mercado creativo.<\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/siecledigital.fr\/2024\/11\/26\/les-sous-titres-de-films-et-series-une-mine-dor-pour-les-entreprises-dintelligence-artificielle\/\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-4<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>A medida que se generaliza el uso de tecnolog\u00edas de inteligencia artificial, surge un debate sobre la legitimidad<\/p>\n","protected":false},"author":1,"featured_media":1457492,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[201280,118,3581,117,246,12286,2237,18,362,11182,74660,158],"class_list":["post-1457857","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-general","tag-ai","tag-artificial","tag-empresas","tag-inteligencia","tag-las","tag-mina","tag-oro","tag-para","tag-peliculas","tag-series","tag-subtitulos","tag-una"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1457857","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=1457857"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1457857\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/1457492"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=1457857"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=1457857"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=1457857"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}