Geração automática de resumo em português a partir de conteúdo audiovisual em inglês: método, validação e aplicativo “caseiro”

Keomas da Silva Monteiro; Hendrik Teixeira Macedo; Leonardo Nogueira Matos; Kalil Araújo Bispo

doi:10.5380/atoz.v14.94711

Autores

Keomas da Silva Monteiro Universidade Federal de Sergipe, São Cristóvão, Sergipe https://orcid.org/0009-0007-9656-9478
Hendrik Teixeira Macedo Universidade Federal de Sergipe, Aracaju, Sergipe https://orcid.org/0000-0002-6477-756X
Leonardo Nogueira Matos Universidade Federal de Sergipe, São Cristóvão, Sergipe https://orcid.org/0000-0002-6302-3299
Kalil Araújo Bispo Universidade Federal de Sergipe, São Cristóvão, Sergipe https://orcid.org/0000-0001-8878-9293

DOI:

https://doi.org/10.5380/atoz.v14.94711

Palavras-chave:

Síntese audiovisual, Tradução inglês-português, Inteligência Artificial, Modelos de aprendizado de máquina, Aplicação Web, Avaliação quantitativa

Resumo

Introdução: A síntese audiovisual é essencial para democratizar o conhecimento, facilitar pesquisa e aprendizado, aprimorar a experiência do usuário e promover inclusão digital, mas a produção manual de resumos é trabalhosa e não é escalável. A IA automatiza esse processo, mas ainda não há uma solução automatizada completa, de baixo custo e de fácil uso. Este trabalho propõe um roteiro para criar um pipeline automatizado "caseiro" para gerar resumos em português a partir de vídeos com áudio em inglês. Método: para atingir o objetivo proposto, implementamos quatro algoritmos em pipeline para: (1) extrair o áudio do vídeo, (2) transcrevê-lo para texto, (3) resumir o texto na língua original e (4) traduzir o resumo para português. Os algoritmos usam modelos de aprendizado de máquina e são validados com métricas específicas para cada etapa: WER, CER, ROUGE, BLEU. Resultados: o trabalho apresenta o “Smart Summy”, uma arquitetura e solução integrada para geração automática de resumos em português de vídeos em inglês, com execução em nuvem, sem necessidade de instalação ou entendimento de tecnologias por parte do usuário, e de interface leve, simples e intuitiva. Avaliações quantitativas das etapas do pipeline com uso das métricas estabelecidas demonstram altíssima qualidade na transcrição, boa qualidade do resumo em inglês e ótimo poder de tradução para o português. Conclusão: o “Smart Summy” e seu roteiro de uso orientado demonstra poder preencher uma lacuna ainda existente no que concerne à integração de ferramentas (ou modelos) de Inteligência Artificial para automatização da produtividade do usuário “comum”.

Biografia do Autor

Keomas da Silva Monteiro, Universidade Federal de Sergipe, São Cristóvão, Sergipe

Programa de Pós Graduação em Ciência da Computação (Mestrado acadêmico)

Hendrik Teixeira Macedo, Universidade Federal de Sergipe, Aracaju, Sergipe

Departamento de Computação

Leonardo Nogueira Matos, Universidade Federal de Sergipe, São Cristóvão, Sergipe

Departamento de Computação

Kalil Araújo Bispo, Universidade Federal de Sergipe, São Cristóvão, Sergipe

Departamento de Computação

Referências

Abdul, Z., & Al-Talabani, A. (2022). Mel Frequency Cepstral Coefficient and its applications: a review. IEEE Access, 10, 122136-122158. 10.1109/ACCESS.2022.3223444

Chen, B. A. (2014). A systematic comparison of smoothing techniques for sentence-level BLEU. Proceedings of the ninth workshop on statistical machine translation, 362-367. 10.3115/v1/W14-3346

El-Kassas, W. S., Salama, C., Rafea, A., & Mohamed, H. K. (2021). Automatic text summarization: A comprehensive survey. Expert systems with applications, 165(4), 1-46. 10.1016/j.eswa.2020.113679

Eser, O. (2022). The quality of translation students’ transcriptions for subtitling in healthcare settings. The Interpreter and Translator Trainer, 16(4), 524-539. 10.1080/1750399X.2022.2082103

Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. IEEE international conference on acoustics, speech and signal processing. IEEE, 6645-6649. 10.1109/ICASSP.2013.6638947

Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. IEEE international conference on acoustics, speech and signal processing,pp. 6645-6649. 10.1109/ICASSP.2013.6638947

Gulati, A., Qin, J., Chiu, C. C., Parmar, N., Zhang, Y., Yu, J., Han, W., Wang, S., Zhang, Z., Wu, Y., & Pang, R. (2020). Conformer: convolution-augmented transformer for speech recognition. Interspeech, 5036-5040.

https://doi.org/10.48550/arXiv.2005.08100

Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A. R., Jaitly, N., & Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition. IEEE Signal Processing Magazine, 29(6). 10.1109/MSP.2012.2205597

Lin, W., Li, S., Zhang, C., Ji, B., Yu, J., Ma, J., & Yi, Z. (2022). SummScore: a comprehensive evaluation metric for summary quality based on cross-encoder. ArXiv preprint, 69-84.

10.48550/arXiv.2207.04660

Mohamed, A., Okhonko, D., & Zettlemoyer, L. (2019). Transformers with convolutional context for asr. ArXiv preprint.

https://doi.org/10.48550/arXiv.1904.11660

Nallapati, R., Zhou, B., Gulcehre, C., Xiang, B., & Pascanu, R. (2016). Abstractive text summarization using sequence-to-sequence RNNs and beyond. The SIGNLL Conference on Computational Natural Language Learning, 280-290.

10.48550/arXiv.1602.06023

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21, 1-67.

10.5555/3455716.3455856

Rescigno, A. A., & Monti, J. (2023). Gender Bias in Machine Translation: a statistical evaluation of Google Translate and DeepL for English, Italian and German. International Conference on Human-informed Translation and Interpreting Technology. 10.26615/issn.2683-0078.2023_001

Rescigno, A. A., Vanmassenhove, E., Monti, J., & Way, A. (2020). A case study of natural gender phenomena in translation. A comparison of Google Translate, Bing Microsoft Translator and DeepL for English to Italian, French and Spanish. Computational Linguistics CLiC-it, 257-262. 10.4000/books.aaccademia.8844

Rivera-Trigueros, I. (2022). Rivera-Trigueros, Irene. Machine translation systems and quality assessment: a systematic review. Language Resources and Evaluation, 56(2), 593-619. 10.1007/s10579-021-09537-5

Scribe, H. (2022). (Happy Scribe). Happy scribe: audio transcription & video subtitles. https://www.happyscribe.com/

See, A., Liu, P. J., & Manning, C. D. (2017). Get to the point: Summarization with pointer-generator networks. 55th Annual Meeting of the Association for Computational Linguistics, 1, 1073-1083. 10.48550/arXiv.1704.04368

Shanahan, M. (2024). Talking about large language models. Communications of the ACM, 67(2), 68-79. 10.1145/3624724

Soni, M., & Wade, V. (2023). Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms. arXiv preprint arXiv:2303.17650. 10.48550/arXiv.2303.17650

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L, & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. 10.48550/arXiv.1706.03762

Wollin-Giering, S., Hoffmann, M., Hofting, J., & Ventzke, C. (2023). Automatic transcription of qualitative interviews. Sociology of Science Discussion Papers. 10.13140/RG.2.2.14480.38404

Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., & Klingner, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv. 10.48550/arXiv.1609.08144

Yasunaga, M., Kasai, J., Zhang, R., Liu, Y., & Miyao, Y. (2021). Graph-based neural sentence ordering. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1890-1906.

10.48550/arXiv.1912.07225

Yulianto, A., & Supriatnaningsih, R. (2021). Google translate vs. DeepL: a quantitative evaluation of close-language pair translation (french to english). Asian Journal of English Language and Pedagogy, 9(2), 109-127. 10.37134/ajelp.vol9.2.9.2021

Yusuf, B., Gandhe, A., & Sokolov, A. (2022). Usted: Improving asr with a unified speech and text encoder-decoder. IEEE International Conference on Acoustics, Speech and Signal Processing, 8297-8301. 10.48550/arXiv.2202.06045

Zhang, B., Haddow, B., & Sennrich, R. (2022). Revisiting end-to-end speech-to-text translation from scratch. Em PMLR (Ed.), International Conference on Machine Learning, 26193-26205. 10.48550/arXiv.2206.04571