0173

Título
CRIAÇÃO DE CAPACITAÇÃO DE MINERAÇÃO DE DADOS

Aluno: Simão Lucas Teixeira Stocko - PIBIC/Fundação Araucária - Curso de Gestão da Informação (M) - Orientador: Denise Fukumi Tsunoda - Departamento de Ciências e Gestão da Informação - Área de conhecimento: 10000003 - Palavras-chave: capacitação; mineração de dados; software livre .

A pesquisa tem como objetivo estudar, utilizar e discutir as principais tarefas e heurísticas de Mineração de Dados - MD em algumas das ferramentas mais utilizadas atualmente com o propósito de se criar uma capacitação no modelo semipresencial sobre o assunto. A MD pode ser entendida como sendo o "uso de técnicas automáticas de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações, que devido ao volume de dados, não seriam facilmente descobertas a olho nu pelo ser humano". No primeiro ano, a pesquisa abordou as tarefas de classificação, regras de associação e agrupamento. Neste segundo ano, foram estudadas duas outras tarefas, a saber: regressão e sumarização. A regressão é facilmente confundida com a técnica de classificação, isso porque ambas utilizam dados e informações anteriores (históricas) para a tomada de decisão. No entanto, existem diferenças quanto aos tipos dos atributos utilizados: enquanto a classificação utiliza atributos numéricos discretos (1, 2, 3, 4,...) (em alguns casos o próprio método realiza a discretização dos atributos, como o C4.5), a regressão utiliza atributos contínuos (2,3476; 0,456,...). Também conhecida como Estimativa, essa técnica "estima dados", ou seja, define um valor para uma variável contínua. Um exemplo de sua aplicação é estimar a probabilidade de um paciente falecer baseando-se em seus diagnósticos médicos. A tarefa de sumarização "envolve métodos para encontrar uma descrição compacta para um subconjunto de dados". Um exemplo dessa técnica seria a tabulação dos significados e dos desvios padrões para todos os itens de dados de um texto - text mining. Finalizada a segunda fase da pesquisa, foram escolhidas as seguintes ferramentas de mineração de dados, sendo todos eles gratuitos para fins desta pesquisa: WEKA (pacote para data mining); o Rapidminer (ferramenta para Data Mining, Text Mining e Web Mining) e a Linguagem R (ambiente de programação com conjunto integrado de ferramentas de software para manipulação de dados, cálculos e apresentação gráfica). Com isso, uma comparação entre os três programas será realizada segundo os critérios definidos para análise: documentação, instalação, interface gráfica, integração, suporte, vantagens e desvantagens. Na próxima etapa da pesquisa, serão preparadas três bases de dados para mineração em todas as três ferramentas escolhidas utilizando-se as tarefas estudadas até o momento: classificação, associação, agrupamento, regressão e sumarização. O resultado final será documentado em formato de artigo científico para publicação.