Un análisis revela que gran parte de los modelos populares restringen el acceso al código y los datos de entrenamiento, desdibujando la línea de lo que significa ser "open source". Conozca un ranking revelador.
En un mundo donde la inteligencia artificial está en constante evolución, la transparencia y apertura de los modelos son fundamentales para el avance científico y la rendición de cuentas. Sin embargo, un reciente estudio ha puesto en duda las afirmaciones de apertura por parte de gigantes tecnológicos como Meta y Microsoft. Investigadores han revelado que muchos de estos modelos, aunque se presentan como "open source", no cumplen con los criterios básicos de transparencia, restringiendo el acceso al código y los datos de entrenamiento, de acuerdo a lo revelado por un artículo de Nature.
El término "open source" proviene del software, donde implica acceso al código fuente sin restricciones en su uso o distribución. Sin embargo, dada la complejidad de los modelos de IA y los enormes volúmenes de datos involucrados, aplicar este concepto a la IA no es tan sencillo. Según los investigadores, las grandes empresas tecnológicas a menudo practican el "open-washing", una táctica para cosechar beneficios de relaciones públicas sin proporcionar un acceso genuino y completo a sus tecnologías.
Mark Dingemanse, científico del lenguaje en la Universidad Radboud de Nijmegen, Países Bajos, junto con su colega Andreas Liesenfeld, desarrollaron una tabla de clasificación para evaluar la apertura de 40 grandes modelos de lenguaje. Utilizando 14 parámetros, evaluaron la disponibilidad del código, los datos de entrenamiento, la documentación publicada y la facilidad de acceso. Su estudio, publicado en los procedimientos de la Conferencia ACM sobre Equidad, Responsabilidad y Transparencia de 2024, revela que muchos modelos, incluidos Llama de Meta y Gemma de Google DeepMind, solo ofrecen acceso limitado, denominándose "open weight" en lugar de verdaderamente "open source".
La investigación muestra que las compañías más pequeñas y los grupos de investigación tienden a ser más abiertos que sus contrapartes de grandes empresas tecnológicas. Un ejemplo destacado es BLOOM, desarrollado por una colaboración internacional principalmente académica, que se considera un modelo de IA verdaderamente open source.
La importancia de la apertura en la IA no solo radica en la transparencia, sino también en la capacidad de reproducir resultados científicos. Sin acceso completo a los modelos y sus datos de entrenamiento, los investigadores no pueden replicar estudios ni innovar de manera efectiva. Esto también plantea cuestiones éticas y legales, ya que la falta de transparencia impide saber si se están utilizando datos inapropiados o con derechos de autor.
La próxima entrada en vigor de la Ley de Inteligencia Artificial de la Unión Europea dará un nuevo peso legal a la definición de "open source", aplicando regulaciones menos estrictas a los modelos que se clasifiquen como tales. Sin embargo, refinar esta definición será un desafío, y probablemente será un punto de presión para los lobbies corporativos.
Aunque muchos modelos de IA se promocionan como "open source", la realidad es que pocos cumplen con los estándares completos de apertura y transparencia. Este estudio busca ayudar a la comunidad científica a navegar estas aguas turbias y fomentar un entorno donde la verdadera apertura sea la norma y no la excepción.
Comments