Melhoria na qualidade de dados com a aplicação de "data cleaning" na base de dados de acidentes aeronáuticos da aviação civil brasileira
Resumo
Introdução: Apresenta a aplicação de técnicas de data cleaning na base de dados de acidentes aeronáuticos da aviação civil brasileira com o objetivo de mensurar o grau de melhoria na qualidade dos dados. Método: inicialmente realizou-se uma revisão de literatura sobre os conceitos de data cleaning e qualidade de dados e, em seguida, aplicaram-se as técnicas de data cleaning em uma base de dados composta por 4601 registros, referentes aos acidentes aeronáuticos ocorridos entre os anos de 1979 e 2014 na aviação civil brasileira. A medição da melhoria na qualidade dos dados foi realizada por meio da métrica “percentual de melhoria dos dados”. Resultados: Observando-se o contexto geral todos os atributos da base de dados houve uma melhoria de 9% quanto à qualidade dos dados, com atributos, como por exemplo o peso, fabricante e modelo das aeronaves, que apresentaram um grau de melhoria acima de 55% após a aplicação da metodologia. Conclusão: A técnica de data cleaning pode ser utilizada para definir políticas para a melhoria contínua em bases de dados e melhorar os processos de decisão nas organizações que tratam sobre aviação, em especial na área de segurança de voo.
Palavras-chave
Referências
Centro de Investigação e Prevenção de Acidentes. (2008). Relatório final a-022/cenipa/2008.
Centro de Investigação e Prevenção de Acidentes. (2009). Relatório final a-no67/cenipa/2009.
Kanki, B. G., & Seamster, T. L. (2002). Aviation information management: From documents to data. Burlington: Ashgate.
Lopes, F. P. (2006). Administração de dados: Técnicas, metodologias e ferramentas para garantir a qualidade dos dados. Recife: Universidade Federal de Pernambuco.
Oliveira, P. J., Rodrigues, F., & Henriques, P. R. (2004). Limpeza de dados: Uma visão geral. Recuperado de http://wiki.di.uminho.pt/twiki/pub/Research/Doutoramentos/SDDI2004/ArtigoOliveira.pdf
Orr, K. (1998, Feb.). Data quality and systems theory. Communications of the ACM, 41(2), 66–71. doi:10.1145/269012.269023
Pipino, L. L., Lee, Y. W., & Wang, R. Y. (2002, Apr.). Data quality assessment. Communications of the ACM, 45(4), 211–218. doi: 10.1145/505248.506010
Rahm, E., & Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 3–13. Recuperado de http://sites.computer.org/debull/A00dec/issue1.htm
Strong, D. M., Lee, Y. W., & Wang, R. Y. (1997, May). Data quality in context. Communications of the ACM, 40(5), 103–110. doi: 10.1145/253769.253804
Vasco, D. O. (2013). Identificação de anomalias contextuais.Porto: Universidade do Porto.
DOI: http://dx.doi.org/10.5380/atoz.v5i2.47303
Apontamentos
- Não há apontamentos.