Inteligencia no tan artificial: Riesgos de usar datos sintéticos en la IA

El uso de datos generados por computadora para entrenar modelos de Inteligencia Artificial (IA) puede producir resultados erróneos, según un nuevo estudio.

Empresas como OpenAI y Microsoft han probado datos “sintéticos” (creados por IA) para entrenar modelos, ya que los datos humanos son limitados. Sin embargo, una investigación publicada en Nature sugiere que estos datos pueden degradar rápidamente la calidad de los modelos.

Problemas Detectados:

Un ejemplo mostró cómo un texto sobre arquitectura medieval terminó hablando de liebres en menos de 10 generaciones de entrenamiento.
La investigación destaca que los errores se amplifican con cada generación de datos sintéticos, haciendo que los modelos pierdan precisión.

Soluciones y Desafíos:

Una posible solución es marcar el contenido generado por IA para evitar que se use en entrenamientos futuros.
Las empresas deben actuar rápidamente para construir modelos efectivos antes de que se agoten los datos humanos disponibles.

En resumen, aunque los datos sintéticos son prometedores, actualmente presentan problemas significativos que deben resolverse para mejorar la IA.