La era de la arquitectura de “nada compartido” está alcanzando sus límites físicos en la nube moderna. A medida que las aplicaciones empresariales exigen un escalamiento transaccional infinito y conjuntos de datos vectoriales masivos para la IA, el modelo de almacenamiento acoplado de Standard PostgreSQL crea un cuello de botella crítico conocido como amplificación de escritura. En esta inmersión técnica profunda, analizamos el cambio de paradigma arquitectónico introducido por Azure HorizonDB.
Al desacoplar la computación del almacenamiento y utilizar un motor propietario estructurado en registros, HorizonDB promete redefinir el rendimiento de escritura y los tiempos de recuperación. Examinamos la mecánica interna del "Servicio de registro", comparamos la rentabilidad de DiskANN frente a HNSW para cargas de trabajo RAG y visualizamos el flujo de datos asincrónicos para ayudar a los arquitectos de la nube a determinar el motor de base de datos definitivo para la era de la IA.
Azure HorizonDB frente a Postgres | GigXP.com
Arquitectura
Fluir
Buceo profundo
Guía
Arquitectura
flujo visual
Buceo profundo
Guía
El límite físico
PostgreSQL estándar opera en un modelo "acoplado". La CPU y el almacenamiento viven en la misma caja virtual. Esto crea fricción. Cada escritura requiere una confirmación en el registro de escritura anticipada (WAL) y una descarga en el disco local.
HorizonDB desacopla estas capas. Los nodos de cálculo no tienen estado. El registro de la base de datos es la base de datos. Envía registros a una flota de almacenamiento masiva y distribuida que escala independientemente del motor de consultas.
La diferencia clave
HorizonDB elimina la "amplificación de escritura". No es necesario escribir datos en un disco primario y luego copiarlos en un disco de réplica. Escribe una vez en el almacenamiento compartido.
Debajo del capó: el servicio de registro
HorizonDB introduce capas intermedias de las que carece Postgres estándar. Esta complejidad es lo que permite el escalamiento instantáneo.
1. El nodo informático
ROL: PROCESAMIENTO DE CONSULTAS
En esta arquitectura, la instancia "Postgres" es efímera. No contiene datos. Almacena en caché las páginas en un grupo de búfer local (RBP), pero depende de la red para obtener la verdad. Si este nodo falla, uno nuevo gira y se conecta al almacenamiento en segundos.
2. El servidor de páginas
ROL: MATERIALIZACIÓN DE DATOS
Los registros de registro son solo instrucciones (por ejemplo, "cambiar el valor de A a B"). No puede consultar los registros directamente. Los servidores de páginas reproducen constantemente estos registros en segundo plano para generar páginas de datos actualizadas de 8 KB, que luego se devuelven al nodo de computación cuando se solicita.
3. La capa de almacenamiento
PAPEL: DURABILIDAD
Construido sobre Azure Premium Storage. Esta capa es responsable de la "L" en WAL. Una vez que un registro llega a esta capa, la transacción se confirma. Permite la restauración a un momento determinado (PITR) sin penalizaciones de rendimiento en el nodo principal.
Mecánica de recuperación de accidentes
En Postgres estándar, la recuperación tras un fallo puede tardar unos minutos. La base de datos debe reproducir el WAL desde el último punto de control para que el sistema alcance un estado consistente.
HorizonDB elimina esta espera.
Dado que el registro está separado, la capa de almacenamiento (servidores de páginas) siempre aplica registros en paralelo. Cuando el nodo de cálculo se reinicia, no es necesario reproducir el historial. Simplemente se conecta al almacenamiento y continúa atendiendo consultas.
Leer retraso de réplica
Las réplicas estándar a menudo van segundos o minutos detrás de la principal durante cargas de escritura intensas.
Más información:Calculadora y herramienta de dimensionamiento de Azure Arc Data Services para SQL MI PostGreSQL
Réplicas de copia cero
Las réplicas de HorizonDB leen desde el mismo almacenamiento compartido. No mantienen su propia copia de los datos.Retraso de milisegundos
Las réplicas solo necesitan recibir el último número de secuencia de registro (LSN) para saber qué datos son válidos.
Visualizando el flujo
Esta visualización demuestra la ruta de escritura desacoplada. Observe cómo el nodo "Computar" envía registros al "Servicio de registro", que luego actualiza de forma asincrónica los "Servidores de páginas".
- Computación activa
- Infraestructura
- Flujo de datos
EspecificacionesvsEspecificaciones
| Característica | PostgreSQL estándar | Azure Horizon DB |
|---|---|---|
| Modelo de almacenamiento | Acoplado (SSD local) | Desacoplado (piscina compartida) |
| Capacidad máxima | ~32 TB | 128 TB+ |
| Velocidad de escala | Minutos (Copia de datos) | Segundos (solo metadatos) |
| Índice de vectores | HNSW (RAM pesada) | DiskANN (SSD optimizado) |
| Latencia de escritura | Enlace de E/S de disco | Enlace de registro de red (más rápido) |
Limitación de HNSW
El `pgvector` estándar utiliza pequeños mundos navegables jerárquicos. Este algoritmo es rápido pero requiere que el índice resida en la RAM. Para 100 millones de vectores, esto exige máquinas virtuales costosas con mucha memoria.
Ventaja de DiskANN
HorizonDB usa DiskANN. Almacena la mayor parte del gráfico vectorial en SSD y mantiene solo un mapa liviano en la RAM. Esto reduce los costos de infraestructura en aproximadamente un 85 % para grandes conjuntos de datos.
Motor de recomendación
Etapa temprana
Núcleo empresarial
IA/TRAPO
Presupuesto bajo
GigXP.com
Análisis técnico para el arquitecto de la nube moderno. Sin tonterías. Sólo puntos de referencia.
Datos
Legal
© 2025 GigXP.com. Reservados todos los derechos.
Est. 2025 // Calcuta
