Iluminando datos ocultos: cerrando brechas de transparencia en el entrenamiento de grandes modelos de lenguaje
MadridPara entrenar modelos de lenguaje de gran escala, necesitamos conjuntos de datos enormes. Estos datos suelen provenir de diversas fuentes web y se combinan en grandes colecciones. Sin embargo, en este proceso se pueden perder detalles importantes sobre el origen de los datos y las restricciones sobre su uso. Esta falta de claridad es un problema serio, ya que puede provocar cuestiones legales y éticas, además de disminuir el rendimiento del modelo de IA. Por ejemplo, si los datos están mal etiquetados, el modelo puede no funcionar bien para ciertas tareas. Además, datos de fuentes desconocidas pueden introducir sesgos, lo que lleva a predicciones injustas.
Un equipo de investigadores de MIT y otras universidades realizó recientemente una minuciosa revisión y descubrió que:
- Más del 70% de 1.800 conjuntos de datos textuales no incluían información de licencias.
- Aproximadamente el 50% contenían errores en la información de licencias.
- Los creadores de los conjuntos de datos estaban mayoritariamente en el norte global.
- Las restricciones sobre los conjuntos de datos han aumentado significativamente en los últimos años.
Los investigadores desarrollaron una herramienta llamada Explorador de Procedencia de Datos. Esta herramienta genera automáticamente resúmenes sencillos sobre quién creó un conjunto de datos, su origen, las licencias que posee y cómo puede ser utilizado.
Cuando los conjuntos de datos son confusos o incompletos, pueden generar grandes problemas. Por ejemplo, un modelo utilizado para evaluar solicitudes de préstamos podría ser tendencioso si los datos no representan con precisión a toda la población, lo que podría resultar en préstamos injustos. Además, se podrían retirar modelos si contienen información privada, provocando así una pérdida de tiempo y esfuerzo.
El problema de la transparencia es más que una simple molestia. Pueden surgir cuestiones legales si se utilizan conjuntos de datos con términos de licencia mal entendidos o ignorados. Es fundamental para la credibilidad y efectividad de los modelos de IA que los desarrolladores y usuarios puedan rastrear y verificar sus datos de entrenamiento.
El equipo del MIT descubrió que cuando los conjuntos de datos son creados principalmente por personas en EE.UU. o China, suelen omitir detalles culturales importantes para otros países como Turquía o Brasil. Esto dificulta que los modelos de IA entrenados con esos datos sean útiles en todo el mundo.
Los investigadores consideran que herramientas como el Data Provenance Explorer pueden mitigar problemas de transparencia. Estas herramientas ofrecen información clara sobre los conjuntos de datos, ayudando a los desarrolladores de IA a tomar decisiones que cumplan con normas éticas y legales. Esto resulta en una tecnología de IA más responsable, equitativa, eficiente y adecuada para su propósito.
La procedencia y transparencia de los datos en el desarrollo de IA son fundamentales. A medida que la IA se utiliza en más campos, se vuelve crucial asegurar que los datos de entrenamiento estén bien documentados y obtenidos de manera ética.
El estudio se publica aquí:
http://dx.doi.org/10.1038/s42256-024-00878-8y su cita oficial - incluidos autores y revista - es
Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-817 de septiembre de 2024 · 23:28
Pequeñas dosis de ketamina alivian síntomas de abstinencia de opioides, según estudio prometedor
17 de septiembre de 2024 · 22:04
Estrategias innovadoras para combatir el moho en futuras estaciones espaciales
17 de septiembre de 2024 · 20:41
Nueva tecnología: energía renovable ayuda a convertir CO2 en proteínas y vitaminas con microbios
17 de septiembre de 2024 · 19:15
Alteraciones en células B inducidas por tumores predicen el éxito del tratamiento en cáncer de mama triple negativo
Compartir este artículo