Veterano es el nuevo modelo de IA de Buzzy que lleva al mundo por asalto. La startup china ha impresionado al sector tecnológico con su sólido modelo de lenguaje grande, basado en tecnología de código abierto.
Deepseek también ha enviado ondas de choque a través de la industria de la IA, lo que demuestra que es posible desarrollar una poderosa IA para millones en hardware y capacitación, cuando compañías estadounidenses como Openi, Google y Microsoft han invertido miles de millones.
¿Qué es Deepseek?
Deepseek es una creación del inversor y empresario Liang Wenfeng, un ciudadano chino que estudió ingeniería electrónica de información y comunicación en la Universidad de Zhejiang. Liang comenzó su carrera en IA al usarla para el comercio cuantitativo, cofundando el Fondo de cobertura de Hangzhou, China, la gestión de inversiones cuantitativas de alto volante en 2015. En 2023, Liang lanzó Deepseek, centrándose en avanzar en la inteligencia general artificial.
Deepseek lanzó su primer modelo de lenguaje grande, Deepseek-coder, el 29 de noviembre de 2023.
Pero no fue hasta el 20 de enero de 2025, con el lanzamiento de Deepseek-R1, que la compañía volcó a la industria de la IA.
Con un equipo de solo 200 personas y un presupuesto de $ 6 millones, Deepseek lanzó su modelo gratuito y de código abierto, que estaba a la par del modelo GPT 01 de OpenAi, un proyecto que costó hasta $ 600 millones y tomó una estimado 3.500 personas dos años para construir.
A diferencia de las grandes compañías tecnológicas con grandes nóminas en Occidente, Deepseek optimizó su contratación para centrarse en los estudiantes recientemente graduados: “Tres a cinco años de experiencia laboral es el máximo, y aquellos con más de ocho años de experiencia laboral son básicamente rechazados”, un cazador le dijo a 36krun popular sitio de tecnología china.
Y, mientras que OpenAi y otros modelos de IA dominantes estaban disponibles principalmente como productos de suscripción, el código de Deepseek es de código abierto, disponible Para el escrutinio público y se puede descargar a una computadora local a través de AI Playground Huggingface, o como una aplicación de teléfono de forma gratuita.
La tecnología subyacente de Deepseek se consideró un avance masivo en la IA y su lanzamiento envió ondas de choque a través del sector tecnológico estadounidense, eliminando $ 1 billón de valor en un día.
¿Qué tiene de especial Deepseek?
El éxito de Deepseek proviene de su enfoque para el diseño y la capacitación del modelo. Al igual que una supercomputadora masivamente paralela que divide las tareas entre muchos procesadores para trabajar en ellos simultáneamente, el sistema de mezcla de expertos de Deepseek activa selectivamente solo unos 37 mil millones de sus 671 mil millones de parámetros para cada tarea. Este enfoque mejora significativamente la eficiencia, reduciendo los costos computacionales al tiempo que ofrece un rendimiento de primer nivel entre las aplicaciones.
Deepseek mejora su proceso de entrenamiento utilizando Optimización de políticas relativas grupalesuna técnica de aprendizaje de refuerzo que mejora la toma de decisiones al comparar las elecciones de un modelo con las de agentes de aprendizaje similares. Esto permite que la IA refine su razonamiento de manera más efectiva, produciendo datos de entrenamiento de mayor calidad.
Deepseek también ha demostrado un compromiso con la accesibilidad de código abierto al liberar sus modelos bajo la licencia MIT, que permite a los usuarios descargar, implementar y personalizar el modelo AI, distinguiéndolo de los competidores que mantienen sistemas cerrados y patentados. La fuente abierta también permite a los desarrolladores mejorar y compartir su trabajo con otros que luego pueden construir sobre ese trabajo en un ciclo interminable de evolución y mejora.
El desarrollo de Deepseek es ayudado por una reserva de chips Nvidia A100 combinados con hardware menos costoso. Algunas estimaciones ponen el número de chips nvidia a las que Deepseek tiene acceso a alrededor 50,000 GPU, en comparación con el 500,000 Operai solía entrenar chatgpt.
Muchos tecnólogos de IA han elogiado el modelo poderoso, eficiente y de bajo costo de Deepseek, mientras que los críticos han expresado preocupaciones sobre la seguridad de la privacidad de los datos.
“Estamos viviendo en una línea de tiempo en la que una empresa no estadounidense mantiene viva la misión original de OpenAi, una investigación fronteriza realmente abierta que empodera a todos. No tiene sentido ”, el gerente de investigación senior de NVIDIA, el Dr. Jim Fan escribió en X (anteriormente Twitter). “El resultado más entretenido es el más probable”.
Este es el motor de razonamiento de Deepseek R1 que ejecuta el código abierto Grok-1.
El motor de razonamiento permite que se entregue una nueva vida a los modelos más antiguos.
Incluso el CEO de Operai, Sam Altman, reconoció que Deepseek es impresionante.
“¡Obviamente entregaremos modelos mucho mejores y también es un revigoramiento legítimo tener un nuevo competidor!” Altman dicho en X.
Días después, sin embargo, la empresa reclamado Haber encontrado evidencia de que Deepseek usó los modelos patentados de OpenAi para capacitar a su propio modelo rival.
Los críticos también han planteado preguntas sobre los términos de servicio de Deepseek, prácticas de ciberseguridad y posibles lazos con el gobierno chino. Otros han destacado la amplia cantidad de datos del usuario coleccionado por Deepseek, incluidos modelos de dispositivos, sistemas operativos, patrones de pulsación de teclas y direcciones IP, datos que se almacenan en los servidores con sede en China de Deepseek, según la empresa política de privacidad.
Como noticia general y también conciencia de seguridad: Deepseek es un nuevo LLM y es poderoso, pero hay una advertencia, recopilan patrones de pulsación de teclas, esto no es común y se puede usar para identificarse en el futuro en cualquier dispositivo o sitio web, ya que los patrones de pulsación de teclas son como individuales … pic.twitter.com/8pn1ekzn2k
“La privacidad es un problema porque es China. Siempre se trata de recopilar datos de los usuarios. Entonces, el usuario tenga cuidado “, dijo Kevin Surace, CEO del desarrollador de software AI AppVance Descifrar. “Obligará a todos a repensar cómo entrenaremos modelos y cuánta potencia se requiere para la inferencia”.
El rápido aumento de Deepseek desafía el dominio de los gigantes tecnológicos occidentales y plantea preguntas significativas sobre el futuro de la IA, quién lo construye, quién lo controla y cuán abierto y asequible para todo lo que debería ser.
Pero quedan preguntas sobre las implicaciones a largo plazo de Deepseek y si el presidente de los Estados Unidos, Trump, responderá al aparente dominio nocturno de China en el sector de IA con una prohibición al estilo de Tiktok. ¿El alto-flyer tergiversó su uso de GPU para hacer que Deepseek pareciera más eficiente de lo que realmente es? ¿Fue el repentino lanzamiento público de Deepseek programado para reducir las acciones de Nvidia en beneficio de inversores bien posicionados?
Como los competidores, incluidos Meta y Perpleity AI, se apresuran a adaptarse a la metodología de Deepseek, el impacto total de este avance de la IA sigue siendo incierto. Pero una cosa está clara: Deepseek sacudió la industria tecnológica al demostrar una vez más que a veces, las limitaciones de recursos obligan a los avances innovadores y que la tecnología poderosa se puede construir sin etiquetas de precios multimillonarias.
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.