Azure HorizonDB frente a PostgreSQL: arquitectura, punto de referencia vectorial

La era de la arquitectura de “nada compartido” está alcanzando sus límites físicos en la nube moderna. A medida que las aplicaciones empresariales exigen un escalamiento transaccional infinito y conjuntos de datos vectoriales masivos para la IA, el modelo de almacenamiento acoplado de Standard PostgreSQL crea un cuello de botella crítico conocido como amplificación de escritura. En esta inmersión técnica profunda, analizamos el cambio de paradigma arquitectónico introducido por Azure HorizonDB.

Al desacoplar la computación del almacenamiento y utilizar un motor propietario estructurado en registros, HorizonDB promete redefinir el rendimiento de escritura y los tiempos de recuperación. Examinamos la mecánica interna del "Servicio de registro", comparamos la rentabilidad de DiskANN frente a HNSW para cargas de trabajo RAG y visualizamos el flujo de datos asincrónicos para ayudar a los arquitectos de la nube a determinar el motor de base de datos definitivo para la era de la IA.

Azure HorizonDB frente a Postgres | GigXP.com

Arquitectura
Fluir
Buceo profundo
Guía

Arquitectura
flujo visual
Buceo profundo
Guía

El límite físico

PostgreSQL estándar opera en un modelo "acoplado". La CPU y el almacenamiento viven en la misma caja virtual. Esto crea fricción. Cada escritura requiere una confirmación en el registro de escritura anticipada (WAL) y una descarga en el disco local.

HorizonDB desacopla estas capas. Los nodos de cálculo no tienen estado. El registro de la base de datos es la base de datos. Envía registros a una flota de almacenamiento masiva y distribuida que escala independientemente del motor de consultas.

La diferencia clave

HorizonDB elimina la "amplificación de escritura". No es necesario escribir datos en un disco primario y luego copiarlos en un disco de réplica. Escribe una vez en el almacenamiento compartido.

Debajo del capó: el servicio de registro

HorizonDB introduce capas intermedias de las que carece Postgres estándar. Esta complejidad es lo que permite el escalamiento instantáneo.

1. El nodo informático

ROL: PROCESAMIENTO DE CONSULTAS

En esta arquitectura, la instancia "Postgres" es efímera. No contiene datos. Almacena en caché las páginas en un grupo de búfer local (RBP), pero depende de la red para obtener la verdad. Si este nodo falla, uno nuevo gira y se conecta al almacenamiento en segundos.

2. El servidor de páginas

ROL: MATERIALIZACIÓN DE DATOS

Los registros de registro son solo instrucciones (por ejemplo, "cambiar el valor de A a B"). No puede consultar los registros directamente. Los servidores de páginas reproducen constantemente estos registros en segundo plano para generar páginas de datos actualizadas de 8 KB, que luego se devuelven al nodo de computación cuando se solicita.

3. La capa de almacenamiento

PAPEL: DURABILIDAD

Construido sobre Azure Premium Storage. Esta capa es responsable de la "L" en WAL. Una vez que un registro llega a esta capa, la transacción se confirma. Permite la restauración a un momento determinado (PITR) sin penalizaciones de rendimiento en el nodo principal.

Mecánica de recuperación de accidentes

En Postgres estándar, la recuperación tras un fallo puede tardar unos minutos. La base de datos debe reproducir el WAL desde el último punto de control para que el sistema alcance un estado consistente.

HorizonDB elimina esta espera.

Dado que el registro está separado, la capa de almacenamiento (servidores de páginas) siempre aplica registros en paralelo. Cuando el nodo de cálculo se reinicia, no es necesario reproducir el historial. Simplemente se conecta al almacenamiento y continúa atendiendo consultas.

Leer retraso de réplica

Las réplicas estándar a menudo van segundos o minutos detrás de la principal durante cargas de escritura intensas.

Más información:Calculadora y herramienta de dimensionamiento de Azure Arc Data Services para SQL MI PostGreSQL

Réplicas de copia cero
Las réplicas de HorizonDB leen desde el mismo almacenamiento compartido. No mantienen su propia copia de los datos.
Retraso de milisegundos
Las réplicas solo necesitan recibir el último número de secuencia de registro (LSN) para saber qué datos son válidos.

Visualizando el flujo

Esta visualización demuestra la ruta de escritura desacoplada. Observe cómo el nodo "Computar" envía registros al "Servicio de registro", que luego actualiza de forma asincrónica los "Servidores de páginas".

Computación activa
Infraestructura
Flujo de datos

EspecificacionesvsEspecificaciones

Característica	PostgreSQL estándar	Azure Horizon DB
Modelo de almacenamiento	Acoplado (SSD local)	Desacoplado (piscina compartida)
Capacidad máxima	~32 TB	128 TB+
Velocidad de escala	Minutos (Copia de datos)	Segundos (solo metadatos)
Índice de vectores	HNSW (RAM pesada)	DiskANN (SSD optimizado)
Latencia de escritura	Enlace de E/S de disco	Enlace de registro de red (más rápido)

Limitación de HNSW

El `pgvector` estándar utiliza pequeños mundos navegables jerárquicos. Este algoritmo es rápido pero requiere que el índice resida en la RAM. Para 100 millones de vectores, esto exige máquinas virtuales costosas con mucha memoria.

Ventaja de DiskANN

HorizonDB usa DiskANN. Almacena la mayor parte del gráfico vectorial en SSD y mantiene solo un mapa liviano en la RAM. Esto reduce los costos de infraestructura en aproximadamente un 85 % para grandes conjuntos de datos.