Intelligent CIO LATAM Edición 26

Ch rla T cnológica al desarrollador y facilidad de ingesta , pero a un costo para el rendimiento de las consultas .

David Wang , vicepresidente de producto en Imply

Imply ha anunciado una nueva capacidad que convierte a Druid en la primera base de datos analítica que puede proporcionar el rendimiento de una estructura de datos fuertemente tipada con la flexibilidad de una estructura de datos sin esquemas . El descubrimiento automático de esquemas , ahora disponible en Druid 26.0 , es una nueva característica que permite a Druid descubrir automáticamente campos de datos y tipos de datos y actualizar tablas para que coincidan con los datos cambiantes sin un administrador .

Shuffle se une

David Wang , vicepresidente de producto de Imply , responde a nuestras preguntas sobre las mejoras recientemente anunciadas .

¿ Puede proporcionar ejemplos de cómo las empresas están utilizando las soluciones de Imply y qué valor y beneficios han experimentado ?

La segunda característica importante es la expansión de la arquitectura de Druid para soportar grandes uniones complejas en la ingesta a través de uniones aleatorias . Las capacidades de unión anteriores estaban limitadas para mantener una alta eficiencia de CPU para el rendimiento de las consultas , por lo que las tablas grandes tenían que unirse previamente en la canalización de datos a través de otros sistemas como Spark .

Apache Druid es una popular base de datos de código abierto para aplicaciones de análisis en tiempo real . Los desarrolladores de miles de empresas eligen esta base de datos debido a su rendimiento a escala y bajo carga , junto con sus características integrales para analizar datos de transmisión . Druid es la base de datos de elección para casos de uso de análisis , incluida la visibilidad operativa de eventos en tiempo real , la exploración rápida de datos , el análisis orientado al cliente y la toma de decisiones en tiempo real .

¿ Puede proporcionar más detalles sobre las nuevas características introducidas en Milestone 3 de Project Shapeshift , como la detección automática de esquemas y las uniones aleatorias ?

Detección automática de esquemas

La definición de esquemas juega un papel esencial en el rendimiento de las consultas , ya que una estructura de datos fuertemente tipada permite columnarizar , indexar y optimizar la compresión .

Druid ha mejorado sus capacidades de ingesta para admitir grandes uniones , arquitectónicamente a través de combinaciones aleatorias . Esto simplifica la preparación de datos , minimiza la dependencia de herramientas externas y se suma a las capacidades de Druid para la transformación de datos en la base de datos .

¿ Cómo beneficia la función de descubrimiento automático de esquemas en Druid 26.0 a los desarrolladores y aborda los desafíos de definir esquemas al cargar datos ?

Los desarrolladores confían en un formato de datos fuertemente tipado debido a las ventajas de rendimiento de consulta que proporcionan los tipos definidos por columna en términos de optimización de consultas , columnarización , compresión , etc .

Pero la definición de ese esquema tiene que ocurrir antes de que se carguen los datos , comúnmente conocido como esquema en escritura . Pero a medida que cambian los datos de origen , se convierte en una pesadilla para los equipos de ingeniería .

Definir el esquema al cargar datos conlleva una carga operativa para los equipos de ingeniería , especialmente con los datos de eventos en constante cambio que fluyen a través de Apache Kafka y Amazon Kinesis . Las bases de datos como MongoDB utilizan una estructura de datos sin esquema , ya que proporciona flexibilidad

Druid ahora soluciona de manera única este desafío con el descubrimiento automático de esquemas . Druid continúa utilizando un formato de datos fuertemente tipificado por sus beneficios de rendimiento , pero la definición del esquema ahora está ( opcionalmente ) completamente automatizada .

76 INTELLIGENTCIO LATAM www . intelligentcio . com / latam-es

Intelligent CIO LATAM Edición 26 | Page 76