¿Qué es DeepSeek?: La revolucionaria herramienta de inteligencia artificial en 8 preguntas

DeepSeek, el último de una serie de modelos desarrollados con pocos chips y bajo coste, desafía el dominio de gigantes como OpenAI, Google y Meta.

El gran modelo lingüístico (LLM) del laboratorio chino de inteligencia artificial DeepSeek ha sorprendido a Silicon Valley al convertirse en uno de los mayores competidores de ChatGPT, de la empresa estadounidense OpenAI. Su irrupción ha sacudido a los mercados estadounidenses.

 

Ingresa a nuestro grupo de WhatsApp, cliquea aquí; o síguenos en nuestro canal de WhatsApp.

 

Los últimos modelos de DeepSeek, lanzados este mes, son extremadamente rápidos y baratos. El DeepSeek-R1, el último de los modelos desarrollados con menos chips, desafía el dominio de gigantes como OpenAI, Google y Meta.

He aquí DeepSeek en ocho preguntas:

1. ¿De dónde viene DeepSeek?

La empresa, con sede en Hangzhou (China), fue fundada en julio de 2023 por Liang Wenfeng, ingeniero informático y electrónico licenciado por la Universidad de Zhejiang.

Formaba parte del programa de incubación de High-Flyer, un fondo que Liang fundó en 2015. Liang, como otros nombres destacados del sector, aspira a alcanzar el nivel de «inteligencia general artificial» que pueda alcanzar o superar a los humanos en diversas tareas.

La política de almacenamiento de datos de DeepSeek obliga a guardar información de usuarios en servidores ubicados en China, generando preocupación global (EFE/ )Salvatore Di Nolfi.

Al operar de forma independiente, el modelo de financiación de DeepSeek le permite llevar a cabo ambiciosos proyectos de IA sin la presión de inversores externos y priorizar la investigación y el desarrollo a largo plazo. El equipo de DeepSeek está formado por jóvenes licenciados con talento de las mejores universidades chinas y fomenta la cultura de la innovación. 

El proceso de contratación de la empresa da prioridad a las aptitudes técnicas sobre la experiencia laboral. En definitiva, se considera que tiene una nueva perspectiva en el proceso de desarrollo de modelos de inteligencia artificial.

La trayectoria de DeepSeek comenzó en noviembre de 2023 con el lanzamiento de DeepSeek Coder, un modelo de código abierto diseñado para tareas de codificación.

Le siguió DeepSeek LLM, cuyo objetivo era competir con otros grandes modelos lingüísticos. DeepSeek-V2, lanzado en mayo de 2024, ganó adeptos gracias a su gran rendimiento y bajo coste. También obligó a otros grandes gigantes tecnológicos chinos como ByteDance, Tencent, Baidu y Alibaba a bajar los precios de sus modelos de IA.

2. ¿Cuál es la capacidad de los modelos DeepSeek?

DeepSeek-V2 fue sustituido posteriormente por DeepSeek-Coder-V2, un modelo más avanzado con 236.000 millones de parámetros. Diseñado para peticiones de codificación complejas, el modelo tiene una ventana de contexto elevada de hasta 128.000 tokens.

Una ventana de contexto de 128.000 tokens es la longitud máxima de texto de entrada que el modelo puede procesar simultáneamente.

Una ventana de contexto más amplia permite al modelo comprender, resumir o analizar textos más largos. Esto supone una gran ventaja, por ejemplo, cuando se trabaja con documentos largos, libros o diálogos complejos. Un token es una unidad de un texto.

A menudo, esta unidad puede ser una palabra, una partícula (como «artificial» e «inteligencia») o incluso un carácter. Por ejemplo: «¡La inteligencia artificial es genial!» puede constar de cuatro tokens: Artificial», «inteligencia», «genial», «!».

Los últimos modelos de la empresa, DeepSeek-V3 y DeepSeek-R1, han consolidado aún más su posición. DeepSeek-V3, un modelo de 671.000 parámetros, requiere muchos menos recursos que sus homólogos, al tiempo que obtiene unos resultados impresionantes en diversas pruebas comparativas con otras marcas.

Te puede interesar  ¿Conoces el significado de la “i” en iPhone? Steve Jobs lo reveló hace años

El DeepSeek-R1, lanzado en enero de 2025, se centra en tareas complejas como el razonamiento, la codificación y las matemáticas. Con sus capacidades en este ámbito, desafía al o1, uno de los últimos modelos de ChatGPT.

Aunque DeepSeek ha logrado un éxito significativo en poco tiempo, ‘Forbes’ escribió que la empresa se centra principalmente en la investigación y no tiene planes detallados de comercialización en un futuro próximo.

3. ¿Es gratuito para el usuario?

Una de las principales razones por las que DeepSeek ha logrado atraer la atención es que es gratuito para los usuarios finales. De hecho, se trata del primer sistema de inteligencia artificial avanzada de este tipo a disposición de los usuarios de forma gratuita. Otros sistemas potentes como OpenAI o1 y Claude Sonnet requieren una suscripción de pago. Incluso algunas suscripciones imponen cuotas a los usuarios.Google Gemini también está disponible de forma gratuita, pero las versiones gratuitas se limitan a los modelos más antiguos. DeepSeek no tiene limitaciones por ahora.

4. ¿Cómo utilizarlo?

Los usuarios pueden acceder a la interfaz de chat de DeepSeek desarrollada para el usuario final en chat.deepseek. Basta con introducir comandos en la pantalla de chat y pulsar el botón ‘search’ para buscar en internet.

Existe la opción ‘deep think’ para obtener información más detallada sobre cualquier tema. Aunque esta opción proporciona respuestas más detalladas a las peticiones de los usuarios, también puede buscar más sitios en el buscador.

Sin embargo, a diferencia de ChatGPT, que sólo busca basándose en determinadas fuentes, esta función también puede revelar información falsa en algunos sitios pequeños. Por lo tanto, los usuarios necesitan confirmar la información que obtienen en este chat bot.

Los usuarios que han utilizado esta IA han comentado sus limitaciones a la hora de tratar ciertos temas políticos e históricos en China.

5. ¿Es seguro?

Otra pregunta importante sobre el uso de DeepSeek es si es seguro. DeepSeek, al igual que otros servicios, requiere datos del usuario, que probablemente se almacenan en servidores en China.

Como con cualquier LLM, es importante que los usuarios no den datos sensibles al chatbot. Como DeepSeek también es de código abierto, investigadores independientes pueden examinar el código del modelo e intentar determinar si es seguro.

Se espera que en los próximos días se publique información más detallada sobre los problemas de seguridad.

6. ¿Qué significa código abierto?

Los modelos, incluido DeepSeek-R1, se han publicado en su mayor parte como código abierto. Esto significa que cualquiera puede acceder al código de la herramienta y utilizarlo para personalizar el LLM. Los datos de entrenamiento están protegidos.

OpenAI, por su parte, había liberado el modelo o1 cerrado y ya lo está vendiendo sólo a usuarios, incluso a usuarios, con paquetes de 20 a 200 dólares al mes.7. ¿Cómo ha conseguido producir un modelo así a pesar de las restricciones de EE.UU.?

La empresa también ha establecido colaboraciones estratégicas para mejorar sus capacidades tecnológicas y su alcance en el mercado. Una de las colaboraciones notables fue con la empresa estadounidense de chips AMD. Según ‘Forbes’, DeepSeek utilizó las GPU (unidades de procesamiento gráfico) AMD Instinct y el software ROCM en fases clave del desarrollo del modelo, sobre todo para DeepSeek-V3.

MIT Technology Review informó de que Liang había adquirido importantes existencias de chips Nvidia A100, un tipo cuya exportación a China está actualmente prohibida, mucho antes de las sanciones impuestas por Estados Unidos a China. El medio de comunicación chino ’36Kr’ calcula que la empresa tiene más de 10.000 unidades en stock.

Te puede interesar  El Ferrari eléctrico, sin secretos: el poderoso GT con más de 1.000 CV

Algunos dicen que esta cifra asciende a 50.000. Al darse cuenta de la importancia de estas existencias para el entrenamiento de la IA, Liang fundó DeepSeek y empezó a utilizarlas junto con chips de bajo consumo para mejorar sus modelos.

8. ¿Cuáles son las técnicas innovadoras de DeepSeek?

El éxito de DeepSeek puede atribuirse a varias innovaciones importantes.

Aprendizaje por refuerzo: a diferencia de los métodos tradicionales, que dependen en gran medida del ajuste fino supervisado, DeepSeek utiliza RL puro, según el tecnólogo Janakiram MSV. En el perfeccionamiento supervisado, el modelo suele entrenarse en un gran conjunto de datos antes del perfeccionamiento. El uso de la RL pura significa que un sistema de IA se entrena utilizando únicamente métodos de aprendizaje por refuerzo.

Esto significa que el modelo aprende únicamente a través de mecanismos de recompensa y castigo, sin datos extraídos por humanos ni métodos de aprendizaje supervisado. Este enfoque es especialmente eficaz para mejorar las capacidades de razonamiento de DeepSeek-R1.

Arquitectura MoE: la arquitectura Mixture of Experts, o Mezcla de Expertos, es un sistema innovador de diferentes expertos en modelos de inteligencia artificial. Aquí, se seleccionan varios expertos como los más adecuados para la entrada del usuario y sólo ellos trabajan.

De este modo, se aumenta el rendimiento de los grandes modelos y se reduce el coste de procesamiento. Se puede pensar en ello como un equipo de expertos, cada uno especializado en un área diferente. Ante una tarea, sólo se recurre a los expertos pertinentes, lo que garantiza un uso eficiente de los recursos y la experiencia.

Atención latente multicabezal: este método permite a un modelo aprender las relaciones entre las representaciones latentes y las entradas utilizando diferentes cabezales de atención. Sirve para procesar la información de forma más flexible, potente y detallada.

Se puede considerar como múltiples «cabezas de atención» que pueden centrarse en distintas partes de los datos de entrada, lo que permite al modelo comprender la información de forma más exhaustiva.

Destilación: DeepSeek utiliza técnicas de destilación para transferir los conocimientos y capacidades de modelos más grandes a otros más pequeños y eficientes.

Esto es similar a cuando un profesor transfiere conocimientos a un alumno. Permite al alumno realizar tareas de similar competencia pero con menos experiencia o recursos. El proceso de destilación de DeepSeek permite que los modelos más pequeños hereden las capacidades avanzadas de razonamiento y procesamiento del lenguaje de sus homólogos más grandes, haciéndolos más versátiles y accesibles.

Riesgos de soberanía de datos y cumplimiento normativo

El principal motivo de preocupación internacional reside en la política de privacidad de DeepSeek, que obliga a almacenar toda la información personal de los usuarios en servidores ubicados en la República Popular China.

Esta política afecta tanto a datos de registro como a historiales de uso, direcciones IP y datos procedentes de servicios de terceros.

Además, la empresa se reserva el derecho de utilizar tanto las entradas como las salidas de las interacciones para entrenar y mejorar su tecnología, lo que implica que cualquier información confidencial introducida por los usuarios puede ser legalmente explotada por DeepSeek.

Te puede interesar  La amenaza de la "superinteligencia": Expertos piden frenar el desarrollo de la IA

El marco legal chino, especialmente la Ley de Seguridad Nacional, otorga al Estado amplias facultades para acceder a estos datos bajo el pretexto de proteger la seguridad nacional.

El propio Ministerio de Seguridad del Estado de China ha advertido sobre los riesgos de la inteligencia artificial, subrayando que los sistemas generativos pueden recolectar y divulgar información personal sensible, lo que podría ser aprovechado tanto por el gobierno como por actores externos.

Esta situación ha provocado una reacción contundente de las autoridades regulatorias internacionales.

En enero de 2025, el organismo de protección de datos de Italia prohibió el uso de DeepSeek, alegando una falta de transparencia sobre el tratamiento de datos personales y la negativa de la empresa a someterse a la legislación europea.

Irlanda ha advertido que las garantías de protección de datos de la Unión Europea no se aplican si la información se almacena en China, mientras que Corea del Sur suspendió las nuevas descargas de la aplicación en febrero de 2025 por incumplimiento de las normativas nacionales.

Taiwán también ha prohibido el uso de DeepSeek en organismos gubernamentales, citando riesgos de seguridad nacional y geopolítica.

Fallos de ciberseguridad e infraestructura

DeepSeek muestra debilidades frente aDeepSeek muestra debilidades frente a ataques de jailbreaking y manipulación, permitiendo la generación de código malicioso y herramientas de ciberataque – (Imagen Ilustrativa Infobae)

Las deficiencias de DeepSeek no se limitan al ámbito legal. En enero de 2025, investigadores de seguridad descubrieron que una base de datos ClickHouse de la empresa estaba expuesta públicamente sin ningún tipo de autenticación, lo que permitió el acceso a más de un millón de líneas de datos internos. Entre la información comprometidase encontraban historiales de chat de usuarios en texto plano, claves API y secretos criptográficos, así como metadatos operacionales.

Los expertos han señalado que este fallo básico de seguridad podría haber facilitado el espionaje corporativo y la escalada de privilegios dentro de la infraestructura de DeepSeek.

Este incidente pone de manifiesto que la compañía ha priorizado la velocidad de desarrollo sobre la seguridad en su intento de competir con los modelos occidentales. La falta de controles básicos en la infraestructura refuerza la percepción de que DeepSeek no cumple con los estándares mínimos exigidos para el manejo de datos sensibles.El modelo DeepSeek está alineadoEl modelo DeepSeek está alineado ideológicamente con el Partido Comunista Chino y canaliza datos hacia infraestructuras controladas por entidades militares – (Imagen Ilustrativa Infobae)

Susceptibilidad a ataques y jailbreaking

En el plano algorítmico, DeepSeek-R1 y DeepSeek-V3 han demostrado una notable debilidad frente a técnicas de manipulación y ataques de jailbreaking. Los investigadores han conseguido eludir las defensas del modelo mediante inyecciones de prompt y ataques multi-turno, logrando que el sistema genere código malicioso, herramientas de ciberataque y plantillas de ingeniería social para spear-phishing.

El modelo ha resultado vulnerable en varias categorías del Top 10 de OWASP para modelos de lenguaje, incluyendo la exposición de información sensible, la generación de código inseguro y la denegación de servicio. Además, la versión open-source de DeepSeek requiere la activación de la opción trust_remote_code=True para su despliegue, lo que permite la ejecución de código Python arbitrario y abre la puerta a la manipulación maliciosa del modelo por parte de terceros.

Por Opy Morales | Infobae.