Minería de datos y la calidad de los conocimientos extraídos de informes policiales de carreteras federales brasileñas
DOI:
https://doi.org/10.5380/atoz.v3i2.41346Palabras clave:
Datos abiertos gubernamentales, Minería de datos, Reglas de asociación, Descubrimiento de Conocimiento en Bases de DatosResumen
Introducción: Este trabajo presenta y analiza los resultados obtenidos al aplicar el proceso de minería de datos en los boletines de ocurrencias de las carreteras federales brasileñas generadas por la Policía Federal de Carreteras (PRF) en 2012. El objetivo de este trabajo es analizar la viabilidad de la aplicación de la proceso de minería de datos en los datos proporcionados por PRF con el fin de identificar asociaciones entre las variables relacionadas con los accidentes de tránsito en las autopistas federales brasileñas. Método: Se utilizó algoritmos simbólicos de aprendizaje supervisado, así como un algoritmo de generación de reglas de asociación, implementados en la herramienta Weka. En cuanto a la base de datos, se ha usado los registros de 2012. En esta parte de la base de datos se llevó a cabo la etapa de preprocesamiento de datos, que fueron utilizados para la extracción de modelos y patrones en la herramienta Weka y, por último, evaluado los modelos y patrones extraídos. Resultados: En el aprendizaje supervisado, los resultados obtenidos con los algoritmos de J48 y PARTE se han considerado prometedores debido al hecho de que para todas las clases de causas de accidentes, los valores de área bajo la curva ROC (AUC) fueron superiores a 0,5. Además, utilizando el algoritmo Apriori se han generado 38 reglas de asociación con la confianza mayor que 0,8. Conclusiones: Se concluyó que es importante proponer un modelo para la distribución de los datos de esta base de datos, con el fin de utilizarlo para el proceso de minería de datos, así como otras tareas de extracción de conocimiento y toma de decisiones. Se observó aún, la necesidad de mejorar la calidad de los datos que se proporciona desde la etapa inicial de recopilación de datos, es decir, en los mismos sistemas utilizados para grabar los datos.
Citas
Agrawal, R., Imielinski, T., & Swami, A. (1993). Mining association rules between sets of items in large databases. ACM Sigmod Conference. Retirado de http://www.it.uu.se/edu/course/homepage/infoutv/ht08/agrawal93mining.pdf
Agune, R. M., Gregorio Filho, A. S., & Bolliger, S. P. (2010). Governo aberto SP: disponibilização de bases de dados e informações em formato aberto. Congresso Consad de Gestão Pública. Retirado de http://www.prefeitura.sp.gov.br/cidade/secretarias/upload/controladoria_geral/arquivos/C3_TP_GOVERNO%20ABERTO%20SP%20DISPONIBILIZACAO%20DE%20BASES%20DE%20DADOS.pdf
Balbo, F. A. N. (2011). Análise multivariada aplicada aos acidentes da BR-277 entre janeiro de 2007 e novembro de 2009. (Dissertação de Mestrado em Métodos Numéricos em Engenharia). Universidade Federal do Paraná. Retirado de http://www.ppgmne.ufpr.br/arquivos/diss/239.pdf
Baranauskas, J. A., & Monard, M. C. (2000). Reviewing some machine learning concepts and methods. Relatórios Técnicos do ICMC/USP, 102.
Bernardini, F. C. (2006). Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéricos. (Tese de Doutorado em Ciências – Ciências de Computação e Matemática Computacional). Universidade de São Paulo/São Carlos. Retirado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29092006-110806/
Berry, M. J. A., & Linoff, G. (©1997). Data mining techniques: For marketing, sales, and customer support. New York: John Wiley & Sons.
Borgelt, C., & Kruse, R. (2002). Induction of association rules: Apriori implementation. 15th Conference on Computational Statistics. Retirado de http://www.borgelt.net/papers/cstat_02.pdf
Brasil. Ministério da Justiça. (2014a). Sistema BR-Brasil: boletins de ocorrências em rodovias federais. Retirado de http://dados.gov.br/dataset/acidentes-rodovias-federais
Brasil. Portal Brasileiro de Dados Abertos. (2014b). O que são Dados Abertos? 2014. Retirado de http://www.governoeletronico.gov.br/acoes-e-projetos/Dados-Abertos
Breitman, K. (2005). Web semântica: a Internet do futuro. Rio de Janeiro: LTC.
Carvalho, J. V., Sampaio, M. C., & Mongiovi, G. (1999). Utilização de técnicas de “Data Mining” para o reconhecimento de caracteres manuscritos. 14º Simpósio Brasileiro de Bancos de Dados, 235-249. Retirado de http://www.dsc.ufcg.edu.br/~sampaio/Artigos/reconhecimentocaracteresmanuscritos.pdf
Domingos, P. A. (2012). Few useful things to know about machine learning. Communications of the ACM, 55(10), 78-87. Retirado de http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf
Facelli, K., Lorena, A. C., Gama, J., & Carvalho, A. C. P. L. F. (2011). Inteligência Artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC.
Frank, E., & Witten, I. H. (1998). Generating accurate rule sets without global optimization. Hamilton, New Zealand: University of Waikato.
Mitchell, T. (1997). Machine Learning. New York: McGraw Hill.
Quinlan, J. R. (1988). Decision trees and multi-valued attributes. In: Hayes, J. E., Michei, D., & Richards, J. (Orgs.). Machine Intelligence, 11. New York: Oxford University. Retirado de http://aitopics.org/sites/default/files/classic/Machine_Intelligence_11/MI11-Ch13-Quinlan.pdf
Quinlan, J. R. (1993). C4.5: Programs for machine learning. San Francisco: Morgan Kaufmann.
Reis, C. V. R. (2013). O uso da descoberta de conhecimento em Banco de Dados nos acidentes da BR-381. (Projeto de pesquisa – Mestrado Profissional em Sistemas de Informação e Gestão do Conhecimento). Universidade FUMEC. Retirado de http://www.fumec.br/revistas/sigc/article/view/1508
Rezende, S. O., Pugliesi, J. B., Melanda, E. A., & Paula, M. D. (2003). Mineração de dados. In: REZENDE, S.O. (Org.). Sistemas inteligentes: Fundamentos e aplicações. São Paulo: Manole.
The Annotated 8 principles of Open Government Data. (2014). Retirado de http://opengovdata.org/
Witten, I. H., & Frank, E. (2009). Data Mining: Practical machine learning tools and techniques with java implementations. Burlington, Massachusetts: Morgan Kaufmann.
Publicado
Cómo citar
Número
Sección
Licencia
La revista AtoZ es una revista científica de acceso abierto y los derechos de autor de artículos y entrevistas pertenecen a sus respectivos autores/encuestados. Los autores otorgan a la AtoZ el direito de incluir el material publicado (revisado por pares/pos-print) en em sistemas/herramientas de indización, agregadores o curadores.
Los autores tienen permiso y se les anima a depositar sus artículos en sus páginas personales, depósitos y/o portales institucionales anteriormente (pre-print) y posteriormente (post-print) a la publicación en esa Revista. Se pide, si possible, que se apunte la referencia bibliográfica del artículo (incluyendose la URL) en base a la AtoZ.
La AtoZ es sello verde por Diadorim/IBICT.
Todo el contenido de la revista (incluyendo las instrucciones, modelos y política editorial) a menos que se indique otra cosa, están bajo una Licencia de Atribución de Bienes Comunes Creativos (CC) 4.0 Internacional.
Cuando los artículos son publicados por esta revista, se pueden compartir (copiar y redistribuir el material en cualquier soporte o formato para cualquier propósito, incluso comercial) y adaptar (remezclar, transformar y crear a partir del material para cualquier propósito, incluso si es comercial). Debe dar el crédito correspondiente, proporcionar un enlace a la licencia e indicar si se realizaron cambios.
La AtoZ no cobra cualquier tasas por la sumisión y/o procesamiento y/o la publicación de artículos.
























