Technological 4 | Page 10

Data Mining

A definição considerada a mais importante talvez seja a de Usama Fayyad (Fayyad et al. 1996) “...o processo não trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. Existem diversos algoritmos que sustentam esse processo (muitos deles desenvolvidos recentemente) responsáveis por processar e encontrar esses “padrões válidos, novos e valiosos”. Porém com um detalhe que geralmente passa desapercebido, que embora os algoritmos atuais sejam capazes de encontrar padrões “válidos e novos”, ainda não existe uma solução eficaz para determinar esses padrões valiosos.

Por isso, Data Mining ainda necessita de forte interação com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, os analistas também são responsáveis pela condução (direcionamento) da exploração dos dados e esse é um aspecto que deve ser profundamente considerado caso o projeto queira ser bem sucedido.

Uma mineração bem sucedida ocorre a partir de uma fonte de dados (bancos de dados, relatórios, logs de acesso, transações, etc) onde é efetuada uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundância, etc). Deste processo inicial surgem os repositórios organizados (Data Marts e Data Warehouses), que por si só já são úteis de diversas maneiras. Porém é a partir deles que algumas colunas são selecionadas para que o processo de mineração seja aplicado. Nesse momento entra o analista que de forma interativa e com uma freqüente visualização gráfica refina e conduz o processo até que os valiosos padrões apareçam. Olhando para este processo tem-se a sensação de que ele indica um hierarquia, algo que começa em instâncias elementares volumosas e convergem para um ponto relativamente concentrado, porém muito valioso. Porém é necessário salientar que o objetivo da mineração é extrair padrões de dados brutos de forma a simplificá-los desconsiderando informações específicas e privilegiando os aspectos genéricos. Então para a mineração não é interessante considerar um dado que mostra que apenas um cliente fez por exemplo uma compra de algum produto em grande quantidade, pois esse fato isolado muito provavelmente não indica uma tendência de mercado, ou seja, não há como explorar essa informação em particular para que a empresa possa lucrar mais no futuro. Apenas com o conhecimento genérico isso é possível.

10 Technological / Maio, 2016