A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras
DOI:
https://doi.org/10.5380/atoz.v3i2.41346Palavras-chave:
Dados Governamentais Abertos, Mineração de Dados, Regras de Associação, Descoberta de Conhecimento em Bases de DadosResumo
Introdução: Apresenta e analisa os resultados encontrados com a aplicação do processo de Mineração de Dados nos boletins de ocorrências de rodovias federais brasileiras gerados pela Polícia Rodoviária Federal (PRF) em 2012. O objetivo desse trabalho é analisar a viabilidade da aplicação do processo de Mineração de Dados sobre os dados fornecidos pela PRF, a fim de identificar associações entre variáveis relacionadas aos acidentes de trânsito em todas as rodovias federais. Método: Empregaram-se algoritmos de aprendizado supervisionado e simbólico e um algoritmo de regras de associação, ambos implementados na ferramenta Weka. Quanto à base de dados o estudo compreende os registros referentes ao ano de 2012. Sobre essa parcela da base de dados aplicou-se a etapa de pré-processamento dos dados, os quais foram utilizados para extração dos modelos e padrões na ferramenta Weka e, por último, avaliaram-se os modelos e os padrões extraídos. Resultados: No aprendizado supervisionado, os resultados obtidos com os algoritmos J48 e PART foram considerados promissores, pois para todas as classes de causas de acidente, os valores obtidos de área sob a curva ROC (AUC) estiveram acima de 0,5. Além disso, utilizando-se o algoritmo Apriori, foram geradas 38 regras de associação com confiança maior que 0,8. Conclusão: Conclui-se que é importante uma proposta de modelo para distribuição dos dados dessa base de dados, com o objetivo de utilizá-la para o processo de mineração de dados, bem como para outras tarefas de extração de conhecimento e tomada de decisão. Observa-se, ainda, a necessidade de melhoria da qualidade dos dados a serem disponibilizados desde a fase de coleta, ou seja, nos sistemas para cadastro dos dados.
Referências
Agrawal, R., Imielinski, T., & Swami, A. (1993). Mining association rules between sets of items in large databases. ACM Sigmod Conference. Retirado de http://www.it.uu.se/edu/course/homepage/infoutv/ht08/agrawal93mining.pdf
Agune, R. M., Gregorio Filho, A. S., & Bolliger, S. P. (2010). Governo aberto SP: disponibilização de bases de dados e informações em formato aberto. Congresso Consad de Gestão Pública. Retirado de http://www.prefeitura.sp.gov.br/cidade/secretarias/upload/controladoria_geral/arquivos/C3_TP_GOVERNO%20ABERTO%20SP%20DISPONIBILIZACAO%20DE%20BASES%20DE%20DADOS.pdf
Balbo, F. A. N. (2011). Análise multivariada aplicada aos acidentes da BR-277 entre janeiro de 2007 e novembro de 2009. (Dissertação de Mestrado em Métodos Numéricos em Engenharia). Universidade Federal do Paraná. Retirado de http://www.ppgmne.ufpr.br/arquivos/diss/239.pdf
Baranauskas, J. A., & Monard, M. C. (2000). Reviewing some machine learning concepts and methods. Relatórios Técnicos do ICMC/USP, 102.
Bernardini, F. C. (2006). Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéricos. (Tese de Doutorado em Ciências – Ciências de Computação e Matemática Computacional). Universidade de São Paulo/São Carlos. Retirado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29092006-110806/
Berry, M. J. A., & Linoff, G. (©1997). Data mining techniques: For marketing, sales, and customer support. New York: John Wiley & Sons.
Borgelt, C., & Kruse, R. (2002). Induction of association rules: Apriori implementation. 15th Conference on Computational Statistics. Retirado de http://www.borgelt.net/papers/cstat_02.pdf
Brasil. Ministério da Justiça. (2014a). Sistema BR-Brasil: boletins de ocorrências em rodovias federais. Retirado de http://dados.gov.br/dataset/acidentes-rodovias-federais
Brasil. Portal Brasileiro de Dados Abertos. (2014b). O que são Dados Abertos? 2014. Retirado de http://www.governoeletronico.gov.br/acoes-e-projetos/Dados-Abertos
Breitman, K. (2005). Web semântica: a Internet do futuro. Rio de Janeiro: LTC.
Carvalho, J. V., Sampaio, M. C., & Mongiovi, G. (1999). Utilização de técnicas de “Data Mining” para o reconhecimento de caracteres manuscritos. 14º Simpósio Brasileiro de Bancos de Dados, 235-249. Retirado de http://www.dsc.ufcg.edu.br/~sampaio/Artigos/reconhecimentocaracteresmanuscritos.pdf
Domingos, P. A. (2012). Few useful things to know about machine learning. Communications of the ACM, 55(10), 78-87. Retirado de http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf
Facelli, K., Lorena, A. C., Gama, J., & Carvalho, A. C. P. L. F. (2011). Inteligência Artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC.
Frank, E., & Witten, I. H. (1998). Generating accurate rule sets without global optimization. Hamilton, New Zealand: University of Waikato.
Mitchell, T. (1997). Machine Learning. New York: McGraw Hill.
Quinlan, J. R. (1988). Decision trees and multi-valued attributes. In: Hayes, J. E., Michei, D., & Richards, J. (Orgs.). Machine Intelligence, 11. New York: Oxford University. Retirado de http://aitopics.org/sites/default/files/classic/Machine_Intelligence_11/MI11-Ch13-Quinlan.pdf
Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Francisco: Morgan Kaufmann.
Reis, C. V. R. (2013). O uso da descoberta de conhecimento em Banco de Dados nos acidentes da BR-381. (Projeto de pesquisa – Mestrado Profissional em Sistemas de Informação e Gestão do Conhecimento). Universidade FUMEC. Retirado de http://www.fumec.br/revistas/sigc/article/view/1508
Rezende, S. O., Pugliesi, J. B., Melanda, E. A., & Paula, M. D. (2003). Mineração de dados. In: REZENDE, S.O. (Org.). Sistemas inteligentes: Fundamentos e aplicações. São Paulo: Manole.
The Annotated 8 principles of Open Government Data. (2014). Retirado de http://opengovdata.org/
Witten, I. H., & Frank, E. (2009). Data Mining: Practical machine learning tools and techniques with java implementations. Burlington, Massachusetts: Morgan Kaufmann.
Publicado
Como Citar
Edição
Seção
Licença
A revista AtoZ é um periódico científico de acesso aberto e o copyright dos artigos e da entrevista pertence aos respectivos autores/entrevistados com cessão de direitos para a AtoZ no que diz respeito à inclusão do material publicado (revisado por pares/postprint) em sistemas/ferramentas de indexação, agregadores ou curadores de conteúdo.
Todo o conteúdo da Revista (incluindo-se instruções, política editorial e modelos) está sob uma licença Creative Commons Atribuição 4.0 Não Adaptada, a partir de Outubro de 2020.
Ao serem publicados por esta Revista, os artigos são de livre uso para compartilhar (copiar e redistribuir o material em qualquer suporte ou formato para qualquer fim, mesmo que comercial) e adaptar (remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial). É preciso dar o crédito apropriado , prover um link para a licença e indicar se mudanças foram feitas .
A AtoZ não cobra qualquer tipo de taxa para submissão e/ou processamento e/ou publicação de artigos.