El periodista de tecnología y experto en Inteligencia Artificial, Jesús Veliz, nos explica cómo la nueva herramienta DeepSeek está revolucionando el mundo de la IA generativa al desafiar el paradigma de los modelos de lenguaje tradicionales.

La irrupción de DeepSeek amenaza con remecer los cimientos de la novel tendencia tecnológica de la inteligencia artificial generativa (Gen AI). Para entender un poco más sobre lo que ha sucedido y por qué esta herramienta, desarrollada por una startup china, ha encendido todas las alarmas, sobre todo en EE.UU., Vida y Futuro conversó con Jesús Veliz, periodista especializado en tecnología y conferencista en temas relacionados con la Gen AI.

En esta entrevista profundizamos en las diferencias clave entre DeepSeek y otros modelos como ChatGPT, explorando su innovador enfoque en el aprendizaje, la eficiencia energética y el impacto en la industria.

– ¿Podrías explicar rápidamente cómo funcionan las herramientas de inteligencia artificial generativa y por qué se les llama modelos largos de lenguaje?

Claro. En esencia, hablamos de sistemas automatizados donde una base de datos puede generar información nueva o nuevas formas de presentarla. Estos sistemas utilizan modelos de lenguaje con enormes cantidades de datos preentrenados, con millones o billones de parámetros. Mientras más parámetros tenga un modelo de lenguaje, mejor será su capacidad de respuesta. Es similar a la inteligencia humana; mientras más sepas sobre un tema, mejor podrás argumentar. Estos modelos, como ChatGPT, generan respuestas basadas en conocimiento previo, pero escritas de manera nueva, como si conversaras con un ser humano.

– ¿Qué diferencia a DeepSeek de otros modelos de inteligencia artificial, como ChatGPT, en términos de su arquitectura y funcionamiento?

DeepSeek destaca por su enfoque en el aprendizaje por prueba y error, a diferencia de los modelos supervisados. DeepSeek aprende a través de una recompensación algorítmica, recibiendo retroalimentación constante para corregirse y mejorar su rendimiento. Además, tiene una arquitectura mixta que optimiza el uso de recursos. En lugar de emplear toda su potencia computacional en cada tarea, analiza la necesidad de cada pregunta y destina la potencia exacta que requiere, lo cual abarata costos. Otro punto clave es que utiliza el proceso de destilación del conocimiento, donde un modelo grande alimenta a modelos más pequeños para propósitos específicos, reduciendo los requisitos de recursos.

– ¿Cómo impacta la eficiencia de DeepSeek en términos de costos en comparación con otros modelos de IA?

Los costos de DeepSeek son notablemente más bajos en comparación con otros modelos como Claude o GPT-4. Por ejemplo, DeepSeek cobra 0,55 dólares por millón de tokens de entrada y 2,19 dólares por millón de tokens de salida, mientras que otros modelos pueden costar hasta 30 dólares por millón de tokens de salida. Esto representa una diferencia significativa y plantea un cambio de paradigma en la industria de la IA.

– ¿Cómo influye el contexto geopolítico, especialmente la relación entre China y Estados Unidos, en el desarrollo de DeepSeek?

El desarrollo de DeepSeek surge en parte de la necesidad de China de innovar ante los bloqueos tecnológicos impuestos por Estados Unidos. China, al no poder acceder a la tecnología de empresas estadounidenses como NVidia, ha buscado desarrollar sus propias soluciones. DeepSeek es producto de esta búsqueda, utilizando componentes existentes antes de los bloqueos y desarrollando un modelo que compite con los modelos occidentales en términos de eficiencia y capacidad. Es un claro ejemplo de cómo las tensiones geopolíticas impulsan la innovación tecnológica.

– ¿Cuáles son las limitaciones de DeepSeek y cómo se compara con los modelos más grandes en términos de parámetros y capacidades?

Aunque DeepSeek ha demostrado ser muy eficiente, su versión actual tiene menos parámetros que modelos como GPT-4. Mientras que DeepSeek cuenta con 670.000 millones de parámetros, GPT-4 tiene 1,8 billones. Esto puede resultar en ciertas limitaciones en términos de capacidades, por lo que aún debe ser tomado con cautela. Adicionalmente, tiene sesgos evidentes, como cuando no ofrece información sobre la masacre de Tiananmen, mostrando una perspectiva distinta a los modelos occidentales.

– ¿Qué implicaciones tiene la aparición de DeepSeek en el mercado de la inteligencia artificial y cómo podría cambiar la forma en que las empresas invierten en esta tecnología?

La aparición de DeepSeek está presionando a las grandes empresas como OpenAI, Google y Meta al demostrar que se puede lograr más con menos recursos. Esto podría llevar a una recalibración de las estrategias de inversión y desarrollo de modelos de IA, priorizando la eficiencia energética y la optimización de recursos. Las empresas podrían buscar cómo replicar el enfoque de DeepSeek para reducir costos y seguir siendo competitivas. Asimismo, se podría dar un reajuste en las relaciones comerciales y tecnológicas entre Estados Unidos y China.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí