Intelligent CIO LATAM Edição 26

P po T cnológico utilizam uma estrutura de dados sem esquema , pois isso proporciona flexibilidade e facilidade de ingestão para os desenvolvedores , mas com um custo para o desempenho das consultas .

David Wang , vice-presidente de

Produto da Imply

David Wang , vice-presidente de Produto da Imply , responde às nossas perguntas sobre as melhorias recém-anunciadas .

Você pode fornecer exemplos de como as empresas estão usando as soluções da Imply e quais benefícios elas têm experimentado ?

O Apache Druid é um banco de dados de código aberto popular para aplicações de análise em tempo real . Desenvolvedores em milhares de empresas escolhem esse banco de dados por causa de seu desempenho em escala e sob carga , juntamente com suas funcionalidades abrangentes para analisar dados em fluxo . O Druid é o banco de dados de escolha para casos de uso de análise , incluindo visibilidade operacional de eventos em tempo real , exploração rápida de dados , análises voltadas para o cliente e tomada de decisões em tempo real .

Você pode fornecer mais detalhes sobre as novas funcionalidades introduzidas na Etapa 3 do Projeto Shapeshift , como a descoberta automática de esquema e as junções de shuffle ?

Descoberta automática de esquema

A definição de esquema desempenha um papel essencial no desempenho das consultas , pois uma estrutura de dados fortemente tipada torna possível colunarizar , indexar e otimizar a compressão .

Definir o esquema ao carregar dados representa uma carga operacional para as equipes de engenharia , especialmente com dados de eventos em constante mudança fluindo através do Apache Kafka e do Amazon Kinesis . Bancos de dados como o MongoDB

A Imply anunciou uma nova funcionalidade que torna o Druid o primeiro banco de dados de análise que pode oferecer o desempenho de uma estrutura de dados fortemente tipada com a flexibilidade de uma estrutura de dados sem esquema . A descoberta automática de esquema , agora disponível na versão 26.0 do Druid , é uma nova funcionalidade que permite ao Druid descobrir automaticamente campos e tipos de dados e atualizar tabelas para corresponder a dados em constante mudança sem a necessidade de um administrador .

Junções shuffle

A segunda funcionalidade principal é a expansão da arquitetura do Druid para suportar grandes junções complexas na ingestão através de junções shuffle . As capacidades de junção anteriores eram limitadas para manter alta eficiência de CPU para o desempenho das consultas , o que exigia que grandes tabelas fossem pré-juntadas no pipeline de dados através de outros sistemas como o Spark .

O Druid aprimorou suas capacidades de ingestão para suportar grandes junções – arquiteturalmente através de junções shuffle . Isso simplifica a preparação dos dados , reduz a dependência de ferramentas externas e adiciona às capacidades do Druid para a transformação de dados em banco de dados .

Como a funcionalidade de descoberta automática de esquema no Druid 26.0 beneficia os desenvolvedores e aborda os desafios de definir esquemas ao carregar dados ?

Os desenvolvedores dependem de um formato de dados fortemente tipado devido às vantagens de desempenho de consulta que os tipos definidos por coluna fornecem em termos de otimização de consulta , colunarização , compressão , etc . No entanto , a definição desse esquema deve ocorrer antes que os dados sejam carregados – comumente referido como schema-on-write . Mas , à medida que os dados de origem mudam , isso se torna um pesadelo para as equipes de engenharia gerenciarem .

O Druid resolve de forma única esse desafio com a descoberta automática de esquema . O Druid continua a utilizar um formato de dados fortemente tipado por causa de seus benefícios de desempenho , mas a definição do esquema agora é ( opcionalmente ) completamente automatizada .

76 INTELLIGENTCIO AMÉRICA LATINA www . intelligentcio . com / latam-pt

Intelligent CIO LATAM Edição 26 | Page 76