Conceito
- SciDB é um sistema de gestão computacional de banco de dados escalável, projetado para análises complexas em dados multidimensionais. Desenvolvido desde o começo para apoiar mais a facilidade de gestão de dados grandes e diversos e para realizar operações matemáticas, diretamente sobre os dados, mais ágeis e maiores.
Funcionamento
- SciDB é um SGBD inteiramente ACID (Atomicidade, Consistência, isolamento e Durabilidade) que armazena dados em matrizes multidimensionais com fortes atributos tipados dentro de cada célula.
- Matrizes é a maneira natural de organizar, armazenar, e recuperar dados pedidos ou multifacetados.
- O Multidimensional Array Clustering (Agrupamento de matrizes multidimensionais) do SciDB oferece uma velocidade extrema para seleção (selections) e uniões (joins).
- Selecionando duas dimensões quaisquer da matriz multidimensional obtém-se uma matriz representada no formato exato para realizar analíticas complexas que resultam em modelos proféticos.
- Um distribuído processamento de arquitetura massivamente paralelo permite o armazenamento e acessos de quantos dados forem precisos através do dimensionamento em hardware cômodos (commodity hardware).
- Álgebra linear no banco de dados significa mais tempo analisando e menos tempo movendo dados para um agrupamento de softwares de cálculos. Como os cálculos são executados em dados distribuídos, não há a necessidade de criar uma amostra ou selecionar um subconjunto de dados para caber na memória disponível de um único computador.
Algoritmos utilizados
- MAC (Multidimensional Array Clustering) é a chave para o alcance super rápido em seleções, agregações e uniões. MAC usa dois princípios para cumprir esses objetivos:
- 1- Os dados que estão próximos um do outro no sistema de coordenadas definido pelo usuário são armazenados no mesmo ‘chunck’, ou seja, na mesma porção do disco que o SciDB armazena seus dados;
- 2- Os dados são arranjados na mídia de armazenamento na mesma ordem do sistema de coordenadas;
- Dados geoespaciais, científicos, financeiros, de sensores, de sequencia, de séries temporais e outros dados facilmente encontrados não se encaixam dimensionalmente e eficientemente em tabelas, o modelo de dados usado em banco de dados relacionais. O modelo de dados em matrizes multidimensionais do SciDB foi projetado desde o início para lidar com dados multifacetados de grande dimensões. Os dados nunca são sobrescrito, permitindo a gravação e o acesso a correções e updates nos dados durante o tempo. SciDB foi projetado para lidar eficientemente ambas matrizes densas e dispersas fornecendo eficiências de armazenamento enquanto o numero de dimensões e atributos crescem. Operações matemáticas ocorrem diretamente no formato original dos dados. Particionando dados em cada coordenada de uma matriz facilita uniões e acessos ao longo de cada dimensão, assim acelerando o agrupamento, operações de matriz com matriz e seleção de população.
Exemplos de Aplicação
- O modelo de matriz de dados multidimensionais do SciBD é compatível para dados complexos como dados de sequencia genética, dados de sensores, dados de finanças e dados geoespacial. E como o SciDB é uma plataforma ‘tudo-em-um’ de banco de dados e analítica, não é necessário extrair, reformatar e exportar os dados para um conjunto próprio para operações matemáticas.
Print das telas
- Não consegui puxar o software em minha conta (pois quando a criei, escolhi a opção de usuário acadêmico), devido a seguinte informação:
"Request a SciDB Demonstration We do not give demos to Academic Users. For Academic Users, contact us for more information on licenses for you and your institution."