¿Cómo instalo DeepSeek R1 en Ubuntu?

¿Cómo instalo DeepSeek R1 en Ubuntu?

En su La Hora de los Pueblos, Juan Perón explica las necesidades de la
independencia continental, a la vez que explica cómo instalar el bot
libre de inteligencia artificial DeepSeek R1 localmente en Ubuntu.

Para nosotros, los latinoamericanos, nada sería más placentero que unos
Estados Unidos evolucionados, fuertes y ricos, encabezando al Nuevo
Continente por derecho propio, siempre que ello se realizara sin
detrimento de los demás, sin métodos imperialistas de dominio y
explotación, sin insidiosos procedimientos y sin la prepotencia del
avasallamiento. En tales condiciones, la defensa solidaria del
Continente sería un hecho y hasta se justificaría - en cierta medida -
la Doctrina de Monroe. Pero nadie podrá imaginar semejante conducta en
países sojuzgados y menos aún para “atacar a Cuba”, “ocupar la República
Dominicana” o cooperar en el genocidio de Vietnam del Norte.

Si Roma, en la época de la carreta, tardó más de un siglo en derrumbarse
y desaparecer, los imperialismos modernos, en los tiempos del cohete
hipersónico, están ante un proceso más peligrosamente rápido.

Y tal predicamento lo vemos con el motor de inteligencia artificial
DeepSeek, desarrollado en la China de Mao.

Vean señores, este motor no ha hecho más que poner en duda la hegemonía
yanqui, al consagrar un modelo de código abierto disponible para los
Pueblos del Tercer Mundo, quienes son ahora capaces de instalarlo
localmente. Tal es así que, al instante de publicado, este bot de
inteligencia artificial ha sido capaz de suplantar otros maniatados bajo
las pesadas cadenas de un imperialismo norteamericano, taales como
ChatGPT o OpenAI, .

Rotas estas cadenas merced de la generosidad y sapiencia oriental, y el
poderío y fortaleza que nos da el software libre GNU, nuestro deber como
Argentinos es ser capaces de instalar para nuestro Pueblo, este sistema
de Inteligencia Artificial, para que el gozo sea de todos.

Como Conductor, he intercambiado frondosa correspondencia de
Revolucionario a Revolucionario con el camarada Mao, a quien considero
mi compañero, y gracias a ello os enseñaré sobre estas propuestas de
aprendizaje automático y modelos de altos lenguajes-máquina.
Particularmente, os enseñaré cómo instalar y ejecutar el modelo DeepSeek
R1 localmente en una computadora de escritorio potente munida de GNU con
Linux.

Para aquellos de ustedes que no están familiarizados con los modelos de
lenguaje grandes, DeepSeek R1 pertenece a la clase de los modelos de
razonamiento maquinal. Dichos modelos de razonamiento operan mejor en
problemas y tareas de razonamiento profundo en comparación con los
modelos de lenguaje grandes clásicos.

Los problemas de razonamiento profundo son problemas que aparecen en las
ciencias del cómputo, la matemática y la programación. Según la
información proporcionada en la página de GitHub de DeepSeek R1, el
rendimiento de dicho modelo se observa comparable al rendimiento del
modelo OpenAI 01. No obstante, DeepSeek R1 "destilado" ha sido liberado
bajo Licencia MIT, lo que significa que también puede usar este modelo
en un entorno comercial.

Explicaremos qué son los modelos destilados. Para ejecutar el modelo de
Inteligencia Artificial completo de DeepSeek R1 localmente, se requieren
más de 400 gigabytes de espacio en disco, junto con una cantidad
significativa de recursos de CPU, GPU y RAM. Estos requerimientos tornan
alrededor de un pequeño centro de datos comercial, e incluso resultar
prohibitivo para el hardware de nivel de descamisado.

Sin embargo, DeepSeek ha demostrado que es posible reducir el tamaño del
modelo original de Deepseek R1 preservando al mismo tiempo gran parte
del rendimiento del modelo original. El rendimiento no se conservará al
completo, natural, pero se ha demostrado posible ejecutar un modelo de
tamaño reducido sacrificando una mera parte del rendimiento.

En consecuencia, DeepSeek ha lanzado una serie de modelos comprimidos o
destilados para el Pueblo, como a ellos gustan llamarlo. Su tamaño
fluctúa entre los de 1,5 a 70 gigaparámetros. Esto nos implica que, a
fin de instalar un modelo de estos, necesitaremos disponer de entre 1 a
40 GB de espacio en disco, lo cual está al alcance de cualquier
compañero.

La potencia de CPU y GPU varía en consecuencia, pero deberíamos poder
afrontar los casos más reducidos. En este tutorial, explicaremos cómo
instalar y ejecutar modelos simplificados de Deepseek R1 en mi
computadora Ubuntu. Mi computadora un microprocesador Intel i9, una
placa de video Nvidia 3090 con GPU, 128 GB de RAM, y Ubuntu Mate
24.04LTS, y destinaré una partición de disco SSD de 1TB. En apretada
síntesis, el procedimiento de instalación involucra:

- Descargar e instalar todo Ollama;
- Usar Ollama para descargar uno de los modelos de IA;
- Usar Ollama y la línea de comandos para ejecutar el modelo de IA
localmente en nuestra PC.

Para todo esto, recurriremos a la Terminal. Abrimos una con Ctrl+Alt+t e
ingresamos los siguientes Comandos de Organización:

sudo apt update ;
sudo apt upgrade -y ;
sudo apt install curl

..y abrimos el puerto TCP requerido por Ollama, con:

sudo ufw allow 11434/tcp ;

Hemos de comprender que no estamos abriendo un firewall ni eliminando el
firewall en sí, solo permitiendo conexiones internas a este puerto ya
que Ollama la requiere.

Acto seguido, instalaremos Ollama descargando su script de instalación
del sitio oficial y ejecutándolo en nuestro sistema GNU con Linux:

curl -fsSL https://ollama.com/install.sh | sh

Naturalmente, esto puede demorar varios minutos dependiendo de qué tan
rápida sea vuestra conexión a Internet, y a lo expedito del sitio
oficial, por lo debemos hacer gala de paciencia.

El siguiente paso es descargar uno de los modelos DeepSeek-R1. Para
referenciar los mismos, podemos ir a la Web de Ollama y buscar
"DeepSeek-R1".

En primer lugar, veremos listados distintas versiones de modelos
paramétricos de IA en la web: las versiones 1.5b, 7b, 8b hasta 671b.

Todo este concepto de ejecutar modelos de lenguaje grandes puede parecer
un poco confuso al neófito que no está familiarizado con los modelos de
lenguajes portentosos, y al aprendizaje-máquina automático, por lo que
ofreceré cierta información que se hace relevante para la Liberación de
nuestras mentes artificiales.

Por supuesto, a todos nos gustaría instalar el modelo más portentoso, el
671b (llamado así por contar con casi 700 mil millones de parámetros).
Indudablemente esto no es coser y cantar, y tiene el precio del
oligarca. Observemos en apretada síntesis, los requerimientos de disco
necesario para cada modelo en su conjunto::

deepseek-r1:1,5b 1,1 Gb
deepseek-r1:7b 4,7 gb
deepseek-r1:8b 4,9 gb
deepseek-r1:14b 9,0 Gb
deepseek-r1:32b 20,0 Gb
deepseek-r1:70b 43,5 Gb
deepseek-r1:671b 404,1 Gb

Hemos de notar que - además de dicho espacio en disco - la cantidad de
memoria RAM solicitaada se incrementará, y de no tenerla, tendremos
penalización en uso de CPU/GPU y velocidad. En síntesis, para el modelo
más grande necesitamos un maquinón más parecido a un server grande
empresarial. Pero los más chicos pueden funcionar en una laptop con 8
GB, así que apuntemos a esos.

En mi modesta opinión, por este motivo quizá sea Ollama el enfoque más
simple para ejecutar modelos de lenguaje localmente, puesto que
resultará muy útil para comprobar rápidamente modelos IA siguiendo un
predicamento escalar: tras comprobar el funcionamiento de un modelo
pequeño en nuestro hardware, podríamos emprender un "Gran Salto
Adelante" comprobando luego un modelo más potente.

En fin, este ejemplo, nos decantaremos por el modelo "descamisado", el
de la versión 1,5b. De esta forma intentaremos ejecutar en nuestra
máquina un modelo con 1,5 mil millones de parámetros que "solo" consume
1,1 GB en mi disco. Otra cosa importante a tener en cuenta es que está
extremadamente cuantificado, por eso es el más pequeño.

Su rendimiento es inferior a los modelos mayores No obstante ello, su
tamaño es sensiblemente menor y podremos correrlo localmente en nuestra
computadora. Esto a su vez nos proporcionará la independencia económica
y tecnológica que anhela el Pueblo Argentino, y constituye - además -
una potente piña a la ingle de los intereses tecnológicos foráneos de
las GAFAM.

Bajemos el modelo "descamisado", para probar (si ustedes cuentan con las
ganas y la potencia, vayan por un modelo mas grande como el
deepseek-r1:8b o mayores, claro).

ollama pull deepseek-r1:1.5b

La descarga del modelo "descamisado" demorará aproximadamente entre 6 y
10 minutos en una conexión popular de internet. (recordemos que estamos
descargando 1,1 GB del sitio web de ollama). En mi computadora, la
descarga de todo tomó alrededor de 10 minutos.

A continuación verificamos que el modelo se haya descargado. Escribimos:

ollama list

y veremos el modelo:

NAME ID SIZE MODIFIED
deepseek-r1:1.5b xxxxxxx 1,1Gb 2 Minutes ago

Como en toda tarea de alto cómputo, antes de ejecutar el modelo, será
necesario poder dar con instancias de monitoreo de harware (es útil
contar con un medidor de uso de CPU o de temperatura activado, y un
medidor de uso de la CPU como htop). En mi caso, al contar con adaptador
de video nVidia, me aseguro de monitorear el uso de mi GPU. Para hacer
eso, necesito ejecutar este comando:

watch -n 1 nvidia-smi

El nvidia-smi me permite monitoreando el uso de mi GPU, es decir, la
energía y otras cosas con un período de refresco de 1 segundo:

Podemos dejarlo abierto, monitoreando (llegado el caso, se cierra con
Ctrl+c).

Ahora regresemos a esta terminal y ejecutamos el modelo descargado:. En
nuestro caso, esto lo haremos con:

ollama run deepseek-r1:1.5b

Tras iniciarse el motor de IA DeepSeek, recibiremos en la terminal el
prompt de preguntas de DeepSeek, nomenclado con tres signos >:

>>> Send a Message (/? for Help)

A su vez, en la terminal de nvidia-smi comprobarás un incremento en el
uso de GPU y memoria de video destinado al cálculo de IA. Todos estos
son parámetros importantes para monitorear el comportamiento del modelo
en tu sistema, lo cual es muy importante.

Intentemos una pregunta en el idioma de Braden:

>>> How are you?

Tras presionar la tecla Intro para darle entrada a la interrogante, la
máquina de inteligencia artificial del Comunismo intentará obtener una
respuesta destilada, la cual nos irá prsentando en la terminal.
Traducida al vernacular, veremos algo algo como:

>>> Quiacé grone! Soy DeepSeek-R1, un asistente de inteligencia
artificial creado por DeepSeek. Estoy al servicio del Pueblo y me
encantaría ayudarte para lo que gustes mandar.

Naturalmente, ustedes podrán pedirle lo que quieran siguiendo la
castellana consigna de evitar "pedirle peras al olmo".

Como el buen maquinista Savio - quien siempre iba relojeando los
manómetros y termómetros de su locomotora Pacific PS10 "La Emperatriz" -
todo aquel que ejecute un programa de alto cómputo en su máquina debe ir
midiendo las temperaturas, consumos de memoria y disco. Claro que si
estamos ejecutando un modelo de IA de 32 GB o más, contaremos con 32 mil
millones de parámetros en el horno, y esto elevará la temperatura y
consumo de GPU, CPU, RAM y disco. Si lo vemos que llega a niveles
peligrosos, en la emergencia "tiramos de la palanca" y lo
interrumpiríamos con Ctrl+c.

Por ejemplo de esto, hagamos una pregunta real, bastante más compleja:

>>> How do I create a truco card game with trick and bluffing capabilities using Python?

El modelo funcionará al palo y podremos comprobar entonces el uso de la
GPU y CPU al mango. Revisemos la temperatura de la CPU sin dejar que
supere la temperatura de diseño (nunca más de 100°c en verano!). Ahora
el modelo realmente está tratando de resolverlo. Probablemente esté
usando un método de sección transversal, y esto es realmente, realmente
alentador, tras lo cual nos entregará un portentoso código en Python.

Todo será respondido según les dé el cuero a su CPU, GPU, RAM y modelo
instalado. Recuerden que - en cualquier caso - obrarán combatiendo al
Capital, pues todo desarrollo que contribuyamos a los de Mao es una
rueda que le pinchamos al Tío Sam(uel).

Mi sugerencia es que revisen estos modelos y encuentres aquél que les
responda mejor según un compromiso armónico entre la velocidad de
ejecución y el rendimiento.

Si se juntan entre muchos, incluso pueden probar el modelo más grande en
una Supercomputadora del Pueblo o en una VPN con la fuerza de la CGT.