Geração automática de resumo em português a partir de conteúdo audiovisual em inglês
método, validação e aplicativo “caseiro”
DOI:
https://doi.org/10.5380/atoz.v14.94711Palavras-chave:
Síntese audiovisual, Tradução inglês-português, Inteligência Artificial, Modelos de aprendizado de máquina, Aplicação Web, Avaliação quantitativaResumo
Introdução: A síntese audiovisual é essencial para democratizar o conhecimento, facilitar pesquisa e aprendizado, aprimorar a experiência do usuário e promover inclusão digital, mas a produção manual de resumos é trabalhosa e não é escalável. A IA automatiza esse processo, mas ainda não há uma solução automatizada completa, de baixo custo e de fácil uso. Este trabalho propõe um roteiro para criar um pipeline automatizado "caseiro" para gerar resumos em português a partir de vídeos com áudio em inglês. Método: para atingir o objetivo proposto, implementamos quatro algoritmos em pipeline para: (1) extrair o áudio do vídeo, (2) transcrevê-lo para texto, (3) resumir o texto na língua original e (4) traduzir o resumo para português. Os algoritmos usam modelos de aprendizado de máquina e são validados com métricas específicas para cada etapa: WER, CER, ROUGE, BLEU. Resultados: o trabalho apresenta o “Smart Summy”, uma arquitetura e solução integrada para geração automática de resumos em português de vídeos em inglês, com execução em nuvem, sem necessidade de instalação ou entendimento de tecnologias por parte do usuário, e de interface leve, simples e intuitiva. Avaliações quantitativas das etapas do pipeline com uso das métricas estabelecidas demonstram altíssima qualidade na transcrição, boa qualidade do resumo em inglês e ótimo poder de tradução para o português. Conclusão: o “Smart Summy” e seu roteiro de uso orientado demonstra poder preencher uma lacuna ainda existente no que concerne à integração de ferramentas (ou modelos) de Inteligência Artificial para automatização da produtividade do usuário “comum”.
Referências
Abdul, Z., & Al-Talabani, A. (2022). Mel Frequency Cepstral Coefficient and its applications: a review. IEEE Access, 10, 122136-122158. 10.1109/ACCESS.2022.3223444
Chen, B. A. (2014). A systematic comparison of smoothing techniques for sentence-level BLEU. Proceedings of the ninth workshop on statistical machine translation, 362-367. 10.3115/v1/W14-3346
El-Kassas, W. S., Salama, C., Rafea, A., & Mohamed, H. K. (2021). Automatic text summarization: A comprehensive survey. Expert systems with applications, 165(4), 1-46. 10.1016/j.eswa.2020.113679
Eser, O. (2022). The quality of translation students’ transcriptions for subtitling in healthcare settings. The Interpreter and Translator Trainer, 16(4), 524-539. 10.1080/1750399X.2022.2082103
Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. IEEE international conference on acoustics, speech and signal processing. IEEE, 6645-6649. 10.1109/ICASSP.2013.6638947
Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. IEEE international conference on acoustics, speech and signal processing,pp. 6645-6649. 10.1109/ICASSP.2013.6638947
Gulati, A., Qin, J., Chiu, C. C., Parmar, N., Zhang, Y., Yu, J., Han, W., Wang, S., Zhang, Z., Wu, Y., & Pang, R. (2020). Conformer: convolution-augmented transformer for speech recognition. Interspeech, 5036-5040.
https://doi.org/10.48550/arXiv.2005.08100
Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A. R., Jaitly, N., & Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition. IEEE Signal Processing Magazine, 29(6). 10.1109/MSP.2012.2205597
Lin, W., Li, S., Zhang, C., Ji, B., Yu, J., Ma, J., & Yi, Z. (2022). SummScore: a comprehensive evaluation metric for summary quality based on cross-encoder. ArXiv preprint, 69-84.
10.48550/arXiv.2207.04660
Mohamed, A., Okhonko, D., & Zettlemoyer, L. (2019). Transformers with convolutional context for asr. ArXiv preprint.
https://doi.org/10.48550/arXiv.1904.11660
Nallapati, R., Zhou, B., Gulcehre, C., Xiang, B., & Pascanu, R. (2016). Abstractive text summarization using sequence-to-sequence RNNs and beyond. The SIGNLL Conference on Computational Natural Language Learning, 280-290.
10.48550/arXiv.1602.06023
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21, 1-67.
10.5555/3455716.3455856
Rescigno, A. A., & Monti, J. (2023). Gender Bias in Machine Translation: a statistical evaluation of Google Translate and DeepL for English, Italian and German. International Conference on Human-informed Translation and Interpreting Technology. 10.26615/issn.2683-0078.2023_001
Rescigno, A. A., Vanmassenhove, E., Monti, J., & Way, A. (2020). A case study of natural gender phenomena in translation. A comparison of Google Translate, Bing Microsoft Translator and DeepL for English to Italian, French and Spanish. Computational Linguistics CLiC-it, 257-262. 10.4000/books.aaccademia.8844
Rivera-Trigueros, I. (2022). Rivera-Trigueros, Irene. Machine translation systems and quality assessment: a systematic review. Language Resources and Evaluation, 56(2), 593-619. 10.1007/s10579-021-09537-5
Scribe, H. (2022). (Happy Scribe). Happy scribe: audio transcription & video subtitles. https://www.happyscribe.com/
See, A., Liu, P. J., & Manning, C. D. (2017). Get to the point: Summarization with pointer-generator networks. 55th Annual Meeting of the Association for Computational Linguistics, 1, 1073-1083. 10.48550/arXiv.1704.04368
Shanahan, M. (2024). Talking about large language models. Communications of the ACM, 67(2), 68-79. 10.1145/3624724
Soni, M., & Wade, V. (2023). Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms. arXiv preprint arXiv:2303.17650. 10.48550/arXiv.2303.17650
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L, & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. 10.48550/arXiv.1706.03762
Wollin-Giering, S., Hoffmann, M., Hofting, J., & Ventzke, C. (2023). Automatic transcription of qualitative interviews. Sociology of Science Discussion Papers. 10.13140/RG.2.2.14480.38404
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., & Klingner, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv. 10.48550/arXiv.1609.08144
Yasunaga, M., Kasai, J., Zhang, R., Liu, Y., & Miyao, Y. (2021). Graph-based neural sentence ordering. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1890-1906.
10.48550/arXiv.1912.07225
Yulianto, A., & Supriatnaningsih, R. (2021). Google translate vs. DeepL: a quantitative evaluation of close-language pair translation (french to english). Asian Journal of English Language and Pedagogy, 9(2), 109-127. 10.37134/ajelp.vol9.2.9.2021
Yusuf, B., Gandhe, A., & Sokolov, A. (2022). Usted: Improving asr with a unified speech and text encoder-decoder. IEEE International Conference on Acoustics, Speech and Signal Processing, 8297-8301. 10.48550/arXiv.2202.06045
Zhang, B., Haddow, B., & Sennrich, R. (2022). Revisiting end-to-end speech-to-text translation from scratch. Em PMLR (Ed.), International Conference on Machine Learning, 26193-26205. 10.48550/arXiv.2206.04571
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2026 AtoZ: novas práticas em informação e conhecimento

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
A revista AtoZ é um periódico científico de acesso aberto e o copyright dos artigos e da entrevista pertence aos respectivos autores/entrevistados com cessão de direitos para a AtoZ no que diz respeito à inclusão do material publicado (revisado por pares/postprint) em sistemas/ferramentas de indexação, agregadores ou curadores de conteúdo.

Todo o conteúdo da Revista (incluindo-se instruções, política editorial e modelos) está sob uma licença Creative Commons Atribuição 4.0 Não Adaptada, a partir de Outubro de 2020.
Ao serem publicados por esta Revista, os artigos são de livre uso para compartilhar (copiar e redistribuir o material em qualquer suporte ou formato para qualquer fim, mesmo que comercial) e adaptar (remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial). É preciso dar o crédito apropriado , prover um link para a licença e indicar se mudanças foram feitas .
A AtoZ não cobra qualquer tipo de taxa para submissão e/ou processamento e/ou publicação de artigos.























