Se está convirtiendo en un cliché decir que los datos son el nuevo recurso finito y que están en riesgo de agotarse. De hecho, el área en la que esta preocupación es más urgente es en los modelos de lenguaje utilizados en inteligencia artificial.
Los rápidos avances de herramientas como Chinchilla de DeepMind han destacado que la forma más efectiva de construir grandes modelos de lenguaje (LLM por sus siglas en inglés) no es hacerlos más grandes, sino entrenarlos con más datos. Pero, ¿cuántos más datos de lenguaje existen? Y más concretamente, ¿cuántos más datos de lenguaje hay que tengan la calidad aceptable? Gran parte de los datos de texto accesibles en internet no son útiles para entrenar un LLM.
Esta es una pregunta difícil de responder con precisión, pero según un grupo de investigación, el stock total de datos de texto de alta calidad es entre 4.6 trillones y 17.2 trillones de tokens. Esto incluye todos los libros del mundo, todos los trabajos científicos, todos los artículos de noticias, toda Wikipedia, todo el código disponible públicamente y gran parte del resto de internet, filtrados por calidad (por ejemplo, páginas web, blogs, redes sociales). Otra estimación reciente pone la cifra total en 3.2 trillones de tokens.
Para que nos hagamos una idea, el modelo Chinchilla de DeepMind fue entrenado con 1.4 trillones de tokens. En otras palabras, podríamos estar rozando el agotamiento del suministro total de datos útiles de lenguaje existentes. Esto podría resultar un obstáculo significativo para el progreso continuo en la inteligencia artificial. Y los especialistas están comenzando a preocuparse.
Dentro de la ciencia de datos, en 2023 esperamos ver todavía mucho enfoque y actividad en esta área, mientras los investigadores de LLM buscan abordar la inminente escasez de datos. Una posible solución son los datos sintéticos, aunque los detalles sobre cómo ponerlo en práctica no están claro. Otra idea es transcribir sistemáticamente el contenido hablado de las reuniones del mundo, ya que después de todo, la discusión hablada representa un gran tesoro de datos de texto que hoy en día no son capturados.
Como la organización líder en investigación de LLM del mundo, será fascinante y iluminador ver cómo OpenAI aborda este desafío en su próxima investigación de GPT-4.