Por qué monté un homelab en 2026 y cuánto me costó la cordura (part-02)

22 June, 2026 | homelab

Serie Homelab Agentic · Parte 1/13 — Del bare metal al agente conversacional. Ver todos los posts

TL;DR

Cloud no te da privacidad real para los datos de agentes IA, ni te quita el miedo al billing de $40 que te frena de experimentar. Un domingo en AZURE me convencí de que necesitaba hierro propio. Este post es el hardware, los costos reales, y las tres decisiones que no volvería a tomar.

La decisión que costó más que dinero

Hubo un momento puntual en que tomé la decisión. No fue planificado. Fue impulsivo, como suelen ser las mejores decisiones técnicas (y también las peores, dependiendo de cómo terminen).

Era un domingo. Estaba haciendo un experimento en AZURE — nada crítico, solo jugando con algo de infraestructura para entender un servicio nuevo. Terminé el experimento, cerré la sesión, y me fui a hacer otra cosa.

El martes a la mañana revisé el billing y me había comido 40 dólares en dos días por dejar corriendo unas instancias que olvidé terminar.

Cuarenta dólares no son el fin del mundo. Pero la sensación de haber pagado por algo que no me dio valor fue horrible. Y peor que eso: me di cuenta de que ese miedo al billing me había estado frenando de experimentar libremente en cloud. Me auto-limitaba, evitaba ciertos tipos de instancias, terminaba las cosas demasiado rápido.

Eso no es aprendizaje. Eso es aprendizaje con freno de mano.

Ese domingo (en retrospectiva) fue cuando decidí que quería un ambiente propio donde pudiera romper cosas sin pensar en el costo por hora.

Por qué en 2026 tiene sentido hacer esto

La pregunta obvia es: con todo el cloud disponible y barato, ¿para qué meter hierro en tu casa?

Es una pregunta legítima. Voy a responderla en serio.

Primero: el cloud no es realmente barato cuando lo usás en serio. Los créditos gratis duran lo que duran. Cuando empezás a correr múltiples servicios, múltiples VMs, guardar terabytes de datos, las cuentas suben rápido. Mi homelab corre 24/7 con un costo de electricidad que está en un orden de magnitud menor a lo que costaría el equivalente en instancias cloud.

Segundo: la privacidad de los datos es real. Esto importa especialmente para el caso de agentes IA. Mis agentes procesan logs de mi infra, métricas de mis sistemas, información sobre qué servicios están corriendo y cuándo fallan. Esos datos dicen mucho sobre cómo trabajo, qué tecnologías uso, cuándo estoy activo. No tengo ningún interés en que eso pase por los servidores de un proveedor cloud sin control.

Con el homelab, los datos de mis agentes se quedan en mi red. El LLM (GPT-4o-mini, en mi caso) ve los datos solo en el momento de la consulta, y esa exposición es controlada y deliberada.

Tercero: la latencia local cambia la experiencia de los agentes. Cuando un agente consulta Prometheus, la respuesta llega en milisegundos porque el servidor está en la misma red. Cuando hace diez consultas encadenadas en un loop ReAct, esa latencia acumulada importa. Con todo en cloud, esa cadena sería notablemente más lenta.

Cuarto, y quizás el más honesto: el aprendizaje en hierro propio es diferente. Cuando algo falla en cloud, AZURE te da un mensaje de error amigable y la mitad del tiempo se recupera solo. Cuando algo falla en Proxmox a las 11pm, vos tenés que entender qué pasó. Eso es incómodo en el momento y valiosísimo a largo plazo.

Y sí, también hay un componente irracional. Hay algo satisfactorio en tener servidores propios corriendo. No lo voy a defender racionalmente. Simplemente es verdad.

El hardware

Vamos a los detalles, que sé que es lo que querés ver.

El cluster Proxmox tiene dos nodos físicos principales:

Nodo-01 es el nodo principal. Acá viven la mayoría de los servicios críticos — el stack de observabilidad, los contenedores de producción. Es el nodo que, si cae, yo lo noto inmediatamente.

Nodo-02 es el secundario. Tiene menos carga pero está en el mismo cluster, lo que me permite hacer migraciones en vivo de VMs entre nodos. Esta capacidad la usé durante el upgrade de storage y fue la que hizo que el proceso fuera prácticamente sin downtime.

Nodo-03 es el tercer nodo del cluster, y tiene un rol específico: es donde vive TrueNAS con el storage ZFS. Configuré un pool ZFS Mirror con dos discos de 2TB — mirror significa que si un disco muere, el otro tiene todos los datos. No es backup (el backup es otra cosa), pero sí es resiliencia ante fallo de disco.

El VPS de DigitalOcean merece explicación especial porque es el componente más contraintuitivo. ¿Por qué pagar por cloud si el punto es no depender del cloud?

La respuesta es: el VPS no almacena datos ni corre servicios importantes. Su única función es ser el punto de entrada de WireGuard VPN y hacer reverse proxy hacia el homelab.

Esto resuelve un problema práctico: no quiero exponer mi IP pública del hogar a internet. Con el VPS como intermediario, todo el tráfico entra al VPS (que tiene una IP fija y pública) y desde ahí viaja por el túnel WireGuard encriptado hacia el homelab. Mi IP doméstica nunca aparece.

Costo del VPS: mínimo. Es la instancia más chica que DigitalOcean tiene disponible. No corre nada pesado.

La red está en el rango 192.168.100.0/24. No es un rango arbitrario — es el que menos colisiona con las redes default que traen routers domésticos (que suelen usar 192.168.0.x o 192.168.1.x). Esto importa cuando querés conectar clientes VPN desde distintos lugares sin conflictos de rutas.

WireGuard asigna IPs en el rango 10.8.0.x para los peers VPN. Todos los peers se conectan al servidor WireGuard que corre en el VPS DO.

AdGuard DNS corre en dos instancias, para tener redundancia DNS dentro de la red. AdGuard resuelve los dominios internos bajo *.home.demo-platform.cloud y bloquea publicidad y trackers para toda la red. Tenerlo self-hosted significa que podés ver exactamente qué queries DNS está haciendo cada dispositivo de tu red. Es diagnóstico de red gratis.

La decisión de Proxmox

Elegí Proxmox y creo que fue la decisión correcta, pero lo digo después de haber considerado las alternativas.

VMware era la opción “seria” durante muchos años. El problema es lo que pasó con la adquisición de Broadcom: los precios subieron brutalmente y los modelos de licenciamiento cambiaron de maneras que hacen que para un homelab sea básicamente inasequible o directamente no disponible. Caso cerrado.

Kubernetes en bare metal – lo pensé. Tengo experiencia con K8s en trabajo. Pero K8s tiene una complejidad operacional que para un ambiente de homelab es excesiva como punto de partida. El 70% del tiempo estaría luchando con Kubernetes y el 30% haciendo lo que realmente me importa. El ratio está invertido.

Proxmox es exactamente lo que necesitaba: virtualización madura, buena gestión de LXC y VMs, interfaz web decente, clustering nativo, y una comunidad activa con documentación real. No es sexy pero funciona. Y en infra, “funciona” es el primer criterio.

Los costos reales

Voy a ser honesto con los números porque detesto los posts que evitan hablar de costos.

El hardware del homelab tiene un costo de entrada — los nodos físicos, los discos, el switch. No voy a poner números exactos porque varían mucho dependiendo de qué conseguís de segunda mano vs nuevo, y en qué país estás. Pero el rango típico para un cluster de dos nodos con storage decente está entre 1000 y 2500 dólares dependiendo del hardware.

Eso suena como mucho, pero amortizado en el tiempo es diferente. Si este hardware dura tres o cuatro años (y el hardware de servidor está diseñado para durar mucho más que eso), el costo mensual es muy razonable comparado con cloud.

El VPS de DigitalOcean: ~6 dólares por mes. Casi nada.

La electricidad: depende de cuánto consume el hardware y cuánto pagás por kWh donde vivís. En mi caso es un costo existente pero no dramático. Los servidores modernos de bajo consumo ayudan mucho acá.

Lo que definitivamente no aparece en estas cuentas: el tiempo. El homelab requiere tiempo de configuración, tiempo de mantenimiento, tiempo de diagnóstico cuando algo falla. Si valorás tu tiempo en dinero (que debería), ese es el costo más alto del homelab. Para mí está justificado porque el aprendizaje que obtengo vale más que el tiempo que invierto. Pero esa ecuación es personal.

Lo que haría diferente

Esta es la sección más honesta del post, así que prestá atención.

Empezaría con un solo nodo. Configurar el cluster de dos nodos desde el principio agregó complejidad que no necesitaba en las primeras semanas. La migración en vivo de VMs entre nodos es fantástica, pero la mayoría de los días no la uso. Podría haber empezado con un solo nodo, aprendido cómo funciona Proxmox, y agregado el segundo cuando ya tuviera confianza.

Planificaría la red desde el inicio con más cuidado. Terminé re-numerando algunas IPs dos veces porque no pensé con suficiente anticipación en cómo iba a crecer la red. Hacer un diagrama de red completo antes de asignar la primera IP te ahorra horas de confusion después.

Montaría la observabilidad antes de instalar cualquier servicio. Esto lo aprendí de la manera difícil: instalé un montón de servicios, todo pareció funcionar, y después cuando algo empezó a comportarse raro no tenía ninguna visibilidad de qué estaba pasando. Ahora tengo la regla: si no podés verlo, no lo instales todavía.

Esperaría antes de agregar los agentes IA. La tentación de poner la capa “inteligente” encima de todo fue fuerte desde el principio. Pero los agentes son tan buenos como los datos que consultan. Si la observabilidad no está bien configurada, los agentes devuelven basura con confianza. El orden importa.

El puente hacia lo siguiente

Ahora tenés el mapa del hardware y entendés las decisiones. El siguiente paso es el más importante antes de hablar de agentes:

¿Cómo hacés para ver lo que está pasando en toda esa infra?

La respuesta es observabilidad. Y la observabilidad en este homelab no es “instalar Grafana y ya”. Es un pipeline completo que va desde la recolección de métricas en cada nodo hasta el tracing específico de cada llamada a un LLM.

Sin ese pipeline, los agentes son ciegos. Con ese pipeline, los agentes tienen contexto real para razonar.

En el siguiente post te cuento cómo lo armé.

Lo que sigue

← Anterior Intro de la serie: el manifiesto
Siguiente → Stack de observabilidad: Grafana + Loki + Prometheus + OTEL

También en esta serie:

Model Context Protocol: cómo la IA habla con tu infra
8 servidores MCP corriendo en paralelo
El agente que avisa solo (Log Analyzer con cron + WhatsApp)

¿Te fue útil? Dejá un comentario o compartilo. Y si tenés dudas, encontrá el resto de la historia en la serie completa.