Amazon tiene una fórmula secreta para extraer datos de GitHub (Microsoft) y entrenar su IA generativa

Andy Jassy, CEO de Amazon.
Andy Jassy, CEO de Amazon.

Business Insider

  • Amazon intenta eludir los límites de recopilación de datos en GitHub de Microsoft.
  • La empresa ha comunicado a sus empleados que su nuevo enfoque ha sido aprobado por los abogados de Amazon.

Para crear modelos de IA potentes, se necesitan montañas de datos de calidad. Amazon está haciendo todo lo posible para recopilar este tipo de información valiosa.

Recientemente, la empresa ha pedido a sus empleados que se registren en la plataforma de desarrollo de software GitHub, de Microsoft, y compartan sus cuentas para que Amazon pueda extraer datos de GitHub más rápidamente, según ha podido saber Business Insider

Se trata de es un paso clave en los esfuerzos de Amazon para entrenar su próximo modelo interno de IA.

En un comunicado interno compartido con los empleados el mes pasado, el grupo de Inteligencia Artificial General de Amazon (Amazon AGI, por sus siglas en inglés) dijo que necesitaba "metadatos cuantitativos y cualitativos de GitHub" para el entrenamiento de su IA.

Pero hay un problema. Una sola cuenta de GitHub solo puede realizar 5.000 solicitudes de recopilación de datos por hora. En GitHub hay más de 150 millones de repositorios de datos públicos. Estas limitaciones implican que recopilar toda esta información llevaría demasiado tiempo, según la nota.

Para evitarlo, el equipo de Amazon AGI está pidiendo a los empleados que creen nuevas cuentas de GitHub y las compartan con la empresa. De este modo, Amazon puede ejecutar todas estas cuentas simultáneamente, reduciendo el tiempo de recopilación de datos a tan solo "unas semanas", según la nota.

"Recopilar todo esto con una sola cuenta llevaría muchos años", explica la nota. "Para aumentar el ritmo al que podemos recopilar los metadatos, pedimos a los miembros del equipo que creen cuentas en GitHub y compartan las claves API".

La dirección de Amazon está solicitando abiertamente la ayuda de los empleados para solucionar el problema.

Rohit Prasad, científico jefe de Amazon, ha animado a los empleados a compartir sus cuentas de GitHub para ayudar a "recopilar más datos de código de alta calidad para entrenar nuestros modelos de base", según un correo electrónico interno de finales de mayo, titulado Ayuda con los datos.

Otro correo electrónico de un responsable de Amazon AGI insta a los empleados a ayudar: "¡Sólo lleva 5 minutos!".

La situación pone de manifiesto la inmensa sed de datos de las empresas tecnológicas que desarrollan sus propios modelos de IA. Estos modelos necesitan mucha información de alta calidad para volverse más inteligentes y similares a los humanos. El suministro de esta información es limitado. Eso está provocando una "guerra por los datos" entre las empresas tecnológicas.

En el caso de Amazon, la empresa necesita más datos para entrenar un nuevo modelo de inteligencia artificial que aún no ha salido al mercado y que ha sido bautizado internamente como su proyecto de inteligencia artificial "más ambicioso". El lanzamiento de un nuevo modelo de IA más potente es importante para Amazon. La empresa está tratando de alcanzar a sus rivales Microsoft, Google y Meta en el ámbito de la IA generativa.

Lo que necesitas saber para estar informado

Lo que necesitas saber para estar informado

¿Te gusta lo que lees? Comienza tu día sabiendo qué piensan y qué les preocupa a los ejecutivos de las principales empresas del mundo con una selección de historias enviada por Business Insider España a primera hora cada mañana.

Recibe la newsletter

Supuestas violaciones de licencia

Aunque es muy probable que la solución de GitHub acelere el proceso de entrenamiento de IA de Amazon, también podría plantear problemas éticos sobre el acceso a datos sin los permisos adecuados. Es posible que Microsoft no esté contenta cuando descubra que su acérrimo rival se está apoyando mucho en GitHub para obtener datos de entrenamiento de IA.

Incluso la propia Microsoft se enfrenta a una demanda por presunta violación de los acuerdos de licencia cuando utilizó datos de GitHub para entrenar su servicio de IA Copilot.

"Amazon apoya la protección de los titulares de derechos y creadores de contenido, así como los marcos legales establecidos que facilitan el desarrollo de servicios innovadores y beneficiosos", afirma Amazon en un comunicado. "Nuestros LLM se entrenan con datos de una gran variedad de fuentes, incluyendo datos con licencia y propietarios, conjuntos de datos de código abierto y datos disponibles públicamente cuando corresponde. Aunque se trata de un área en evolución, nos adherimos a las mejores prácticas de la industria en torno a la recopilación de datos para entrenar nuestros modelos."

La empresa también explica que ha creado sistemas para "acreditar adecuadamente a los desarrolladores de código abierto si las sugerencias de código generadas son similares a sus proyectos".

Los portavoces de GitHub y Microsoft no han respondido a las preguntas de Business Insider para este artículo.

Cuentas corporativas

En la nota interna, Amazon explica que la solución de GitHub ha sido aprobada por los equipos legales y de seguridad de la compañía. Al seguir las directrices, Amazon se asegura de respetar los límites de velocidad de GitHub y evitar que sus cuentas sean bloqueadas, aseguraron.

En términos de "enseñar la mano", la nota dice que el movimiento de Amazon "no debería alarmar a nadie" porque la compañía está trabajando en múltiples productos al mismo tiempo. Para los empleados interesados en ayudar, la nota dice que deben utilizar un correo electrónico de trabajo de Amazon, no una cuenta personal, para inscribirse en GitHub.

También dice que los empleados de Amazon deben crear un "token personal clásico", no un "token personal de precisión", al registrarse. Los tokens personales clásicos de GitHub dan acceso a un conjunto más amplio de repositorios de código, aunque pueden ser menos seguros, según la web de GitHub.

Las instrucciones de Amazon también indican que la caducidad de estos tokens debe fijarse en un año y que no debe seleccionarse ningún "ámbito" para garantizar que el token tenga acceso de "solo lectura" a la información pública.

Una vez registrados, los empleados de Amazon deben copiar y pegar sus tokens de acceso personal  en un archivo compartido de la empresa, añade la nota.

Modelos "más amplios"

Para Amazon, disponer de más datos es crucial para su nuevo modelo de IA. El año pasado, el consejero delegado de Amazon, Andy Jassy, escribió en un correo electrónico interno que Prasad dirigiría el recién creado equipo de AGI, con el objetivo de construir los modelos lingüísticos "más amplios" para la empresa. Prasad depende ahora directamente de Jassy.

Es posible que Amazon vaya por detrás de algunos de sus competidores de IA, que llevan años inmersos en una carrera por recopilar más datos de entrenamiento.

OpenAI, por ejemplo, ha firmado una serie de acuerdos con una larga lista de empresas, como Reddit, Shutterstock y News Corp, para utilizar sus contenidos en el entrenamiento de modelos de IA. Las empresas tecnológicas, ávidas de datos de entrenamiento, también se están concediendo nuevos permisos para utilizar mucha más información de los consumidores.

El equipo AGI de Amazon, por su parte, ya pasó por una importante reestructuración. En noviembre, despidió a algunos de los empleados que trabajaban en proyectos relacionados con Alexa, como informó Business Insider. Prasad también esbozó las seis nuevas áreas de enfoque para el grupo AGI en ese momento, incluyendo modelos fundacionales y servicios de asistente conversacional. 

 

¿Una posición delicada?

Aunque el equipo legal de Amazon ha aprobado la solución de GitHub para la extracción de datos, la medida podría poner a Amazon en una posición delicada.

En 2022, el programador Matthew Butterick y el bufete de abogados Joseph Saveri presentaron una demanda colectiva contra el propietario de GitHub, Microsoft, alegando violaciones de la licencia de código abierto. Según el sitio web de Joseph Saveri, Microsoft entrenó su servicio de inteligencia artificial Copilot con código disponible públicamente en GitHub, sin cumplir con las "licencias de código abierto subyacentes y otros requisitos legales".

Aunque el código fuente abierto en GitHub suele ser de uso gratuito, conlleva ciertas obligaciones, como preservar la atribución exacta del código fuente, escribió Butterick en el sitio web sobre la demanda. En el caso de Copilot, es casi imposible acreditar la fuente original, ya que está construido sobre miles de millones de líneas de código de GitHub, mientras que Microsoft consigue venderlo sin devolver nada a la comunidad de código abierto, escribió.

"Como Neo enchufado a Matrix, o una vaca en una granja, Copilot quiere convertirnos en nada más que productores de un recurso que extraer (Bueno, hasta que puedan deshacerse de nosotros por completo)", escribió Butterick. "¿Y para qué? Incluso las vacas obtienen comida y cobijo. Copilot no aporta nada a nuestros proyectos individuales. Y nada al código abierto en general".

Conoce cómo trabajamos en Business Insider.