Minería de datos y la calidad de los conocimientos extraídos de informes policiales de carreteras federales brasileñas

Autores/as

  • Jefferson de Jesus Costa Universidade Federal Fluminense - UFF
  • Flávia Cristina Bernardini Universidade Federal Fluminense - UFF
  • José Viterbo Filho Universidade Federal Fluminense - UFF

DOI:

https://doi.org/10.5380/atoz.v3i2.41346

Palabras clave:

Datos abiertos gubernamentales, Minería de datos, Reglas de asociación, Descubrimiento de Conocimiento en Bases de Datos

Resumen

Introducción: Este trabajo presenta y analiza los resultados obtenidos al aplicar el proceso de minería de datos en los boletines de ocurrencias de las carreteras federales brasileñas generadas por la Policía Federal de Carreteras (PRF) en 2012. El objetivo de este trabajo es analizar la viabilidad de la aplicación de la proceso de minería de datos en los datos proporcionados por PRF con el fin de identificar asociaciones entre las variables relacionadas con los accidentes de tránsito en las autopistas federales brasileñas. Método: Se utilizó algoritmos simbólicos de aprendizaje supervisado, así como un algoritmo de generación de reglas de asociación, implementados en la herramienta Weka. En cuanto a la base de datos, se ha usado los registros de 2012. En esta parte de la base de datos se llevó a cabo la etapa de preprocesamiento de datos, que fueron utilizados para la extracción de modelos y patrones en la herramienta Weka y, por último, evaluado los modelos y patrones extraídos. Resultados: En el aprendizaje supervisado, los resultados obtenidos con los algoritmos de J48 y PARTE se han considerado prometedores debido al hecho de que para todas las clases de causas de accidentes, los valores de área bajo la curva ROC (AUC) fueron superiores a 0,5. Además, utilizando el algoritmo Apriori se han generado 38 reglas de asociación con la confianza mayor que 0,8. Conclusiones: Se concluyó que es importante proponer un modelo para la distribución de los datos de esta base de datos, con el fin de utilizarlo para el proceso de minería de datos, así como otras tareas de extracción de conocimiento y toma de decisiones. Se observó aún, la necesidad de mejorar la calidad de los datos que se proporciona desde la etapa inicial de recopilación de datos, es decir, en los mismos sistemas utilizados para grabar los datos.

Biografía del autor/a

Jefferson de Jesus Costa, Universidade Federal Fluminense - UFF

Graduado em Tecnologia de Análise de Sistemas - UNESA, Especialista em Desenvolvimento Java - UNESA, Mestrando em Engenharia de Produção e Sistemas Computacionais - UFF/PURO.

Flávia Cristina Bernardini, Universidade Federal Fluminense - UFF

Bacharel em Ciência da Computação - UNESP, Mestre em Ciências da Computação e Matemática Computacional - USP, Doutor em Ciências Matemáticas e da Computação- USP. Professora adjunta - UFF/PURO.

José Viterbo Filho, Universidade Federal Fluminense - UFF

Graduado em Engenharia Elétrica, ênfase Em Computação - POLI/USP, Mestre em Computação Aplicada e Automação - UFF, Doutor em Informática - PUC-Rio. Professoradjunto - UFF.

Citas

Agrawal, R., Imielinski, T., & Swami, A. (1993). Mining association rules between sets of items in large databases. ACM Sigmod Conference. Retirado de http://www.it.uu.se/edu/course/homepage/infoutv/ht08/agrawal93mining.pdf

Agune, R. M., Gregorio Filho, A. S., & Bolliger, S. P. (2010). Governo aberto SP: disponibilização de bases de dados e informações em formato aberto. Congresso Consad de Gestão Pública. Retirado de http://www.prefeitura.sp.gov.br/cidade/secretarias/upload/controladoria_geral/arquivos/C3_TP_GOVERNO%20ABERTO%20SP%20DISPONIBILIZACAO%20DE%20BASES%20DE%20DADOS.pdf

Balbo, F. A. N. (2011). Análise multivariada aplicada aos acidentes da BR-277 entre janeiro de 2007 e novembro de 2009. (Dissertação de Mestrado em Métodos Numéricos em Engenharia). Universidade Federal do Paraná. Retirado de http://www.ppgmne.ufpr.br/arquivos/diss/239.pdf

Baranauskas, J. A., & Monard, M. C. (2000). Reviewing some machine learning concepts and methods. Relatórios Técnicos do ICMC/USP, 102.

Bernardini, F. C. (2006). Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéricos. (Tese de Doutorado em Ciências – Ciências de Computação e Matemática Computacional). Universidade de São Paulo/São Carlos. Retirado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29092006-110806/

Berry, M. J. A., & Linoff, G. (©1997). Data mining techniques: For marketing, sales, and customer support. New York: John Wiley & Sons.

Borgelt, C., & Kruse, R. (2002). Induction of association rules: Apriori implementation. 15th Conference on Computational Statistics. Retirado de http://www.borgelt.net/papers/cstat_02.pdf

Brasil. Ministério da Justiça. (2014a). Sistema BR-Brasil: boletins de ocorrências em rodovias federais. Retirado de http://dados.gov.br/dataset/acidentes-rodovias-federais

Brasil. Portal Brasileiro de Dados Abertos. (2014b). O que são Dados Abertos? 2014. Retirado de http://www.governoeletronico.gov.br/acoes-e-projetos/Dados-Abertos

Breitman, K. (2005). Web semântica: a Internet do futuro. Rio de Janeiro: LTC.

Carvalho, J. V., Sampaio, M. C., & Mongiovi, G. (1999). Utilização de técnicas de “Data Mining” para o reconhecimento de caracteres manuscritos. 14º Simpósio Brasileiro de Bancos de Dados, 235-249. Retirado de http://www.dsc.ufcg.edu.br/~sampaio/Artigos/reconhecimentocaracteresmanuscritos.pdf

Domingos, P. A. (2012). Few useful things to know about machine learning. Communications of the ACM, 55(10), 78-87. Retirado de http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf

Facelli, K., Lorena, A. C., Gama, J., & Carvalho, A. C. P. L. F. (2011). Inteligência Artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC.

Frank, E., & Witten, I. H. (1998). Generating accurate rule sets without global optimization. Hamilton, New Zealand: University of Waikato.

Mitchell, T. (1997). Machine Learning. New York: McGraw Hill.

Quinlan, J. R. (1988). Decision trees and multi-valued attributes. In: Hayes, J. E., Michei, D., & Richards, J. (Orgs.). Machine Intelligence, 11. New York: Oxford University. Retirado de http://aitopics.org/sites/default/files/classic/Machine_Intelligence_11/MI11-Ch13-Quinlan.pdf

Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Francisco: Morgan Kaufmann.

Reis, C. V. R. (2013). O uso da descoberta de conhecimento em Banco de Dados nos acidentes da BR-381. (Projeto de pesquisa – Mestrado Profissional em Sistemas de Informação e Gestão do Conhecimento). Universidade FUMEC. Retirado de http://www.fumec.br/revistas/sigc/article/view/1508

Rezende, S. O., Pugliesi, J. B., Melanda, E. A., & Paula, M. D. (2003). Mineração de dados. In: REZENDE, S.O. (Org.). Sistemas inteligentes: Fundamentos e aplicações. São Paulo: Manole.

The Annotated 8 principles of Open Government Data. (2014). Retirado de http://opengovdata.org/

Witten, I. H., & Frank, E. (2009). Data Mining: Practical machine learning tools and techniques with java implementations. Burlington, Massachusetts: Morgan Kaufmann.

Publicado

2014-12-31

Cómo citar

Costa, J. de J., Bernardini, F. C., & Viterbo Filho, J. (2014). Minería de datos y la calidad de los conocimientos extraídos de informes policiales de carreteras federales brasileñas. AtoZ: Novas práticas Em informação E Conhecimento, 3(2), 139–157. https://doi.org/10.5380/atoz.v3i2.41346

Número

Sección

Artículos