Geração automática de resumo em português a partir de conteúdo audiovisual em inglês
método, validação e aplicativo “caseiro”
DOI:
https://doi.org/10.5380/atoz.v14.94711Palabras clave:
Síntese audiovisual, Tradução inglês-português, Inteligência Artificial, Modelos de aprendizado de máquina, Aplicação Web, Avaliação quantitativaResumen
Introdução: A síntese audiovisual é essencial para democratizar o conhecimento, facilitar pesquisa e aprendizado, aprimorar a experiência do usuário e promover inclusão digital, mas a produção manual de resumos é trabalhosa e não é escalável. A IA automatiza esse processo, mas ainda não há uma solução automatizada completa, de baixo custo e de fácil uso. Este trabalho propõe um roteiro para criar um pipeline automatizado "caseiro" para gerar resumos em português a partir de vídeos com áudio em inglês. Método: para atingir o objetivo proposto, implementamos quatro algoritmos em pipeline para: (1) extrair o áudio do vídeo, (2) transcrevê-lo para texto, (3) resumir o texto na língua original e (4) traduzir o resumo para português. Os algoritmos usam modelos de aprendizado de máquina e são validados com métricas específicas para cada etapa: WER, CER, ROUGE, BLEU. Resultados: o trabalho apresenta o “Smart Summy”, uma arquitetura e solução integrada para geração automática de resumos em português de vídeos em inglês, com execução em nuvem, sem necessidade de instalação ou entendimento de tecnologias por parte do usuário, e de interface leve, simples e intuitiva. Avaliações quantitativas das etapas do pipeline com uso das métricas estabelecidas demonstram altíssima qualidade na transcrição, boa qualidade do resumo em inglês e ótimo poder de tradução para o português. Conclusão: o “Smart Summy” e seu roteiro de uso orientado demonstra poder preencher uma lacuna ainda existente no que concerne à integração de ferramentas (ou modelos) de Inteligência Artificial para automatização da produtividade do usuário “comum”.
Citas
Abdul, Z., & Al-Talabani, A. (2022). Mel Frequency Cepstral Coefficient and its applications: a review. IEEE Access, 10, 122136-122158. 10.1109/ACCESS.2022.3223444
Chen, B. A. (2014). A systematic comparison of smoothing techniques for sentence-level BLEU. Proceedings of the ninth workshop on statistical machine translation, 362-367. 10.3115/v1/W14-3346
El-Kassas, W. S., Salama, C., Rafea, A., & Mohamed, H. K. (2021). Automatic text summarization: A comprehensive survey. Expert systems with applications, 165(4), 1-46. 10.1016/j.eswa.2020.113679
Eser, O. (2022). The quality of translation students’ transcriptions for subtitling in healthcare settings. The Interpreter and Translator Trainer, 16(4), 524-539. 10.1080/1750399X.2022.2082103
Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. IEEE international conference on acoustics, speech and signal processing. IEEE, 6645-6649. 10.1109/ICASSP.2013.6638947
Graves, A., Mohamed, A. R., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. IEEE international conference on acoustics, speech and signal processing,pp. 6645-6649. 10.1109/ICASSP.2013.6638947
Gulati, A., Qin, J., Chiu, C. C., Parmar, N., Zhang, Y., Yu, J., Han, W., Wang, S., Zhang, Z., Wu, Y., & Pang, R. (2020). Conformer: convolution-augmented transformer for speech recognition. Interspeech, 5036-5040.
https://doi.org/10.48550/arXiv.2005.08100
Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A. R., Jaitly, N., & Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition. IEEE Signal Processing Magazine, 29(6). 10.1109/MSP.2012.2205597
Lin, W., Li, S., Zhang, C., Ji, B., Yu, J., Ma, J., & Yi, Z. (2022). SummScore: a comprehensive evaluation metric for summary quality based on cross-encoder. ArXiv preprint, 69-84.
10.48550/arXiv.2207.04660
Mohamed, A., Okhonko, D., & Zettlemoyer, L. (2019). Transformers with convolutional context for asr. ArXiv preprint.
https://doi.org/10.48550/arXiv.1904.11660
Nallapati, R., Zhou, B., Gulcehre, C., Xiang, B., & Pascanu, R. (2016). Abstractive text summarization using sequence-to-sequence RNNs and beyond. The SIGNLL Conference on Computational Natural Language Learning, 280-290.
10.48550/arXiv.1602.06023
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21, 1-67.
10.5555/3455716.3455856
Rescigno, A. A., & Monti, J. (2023). Gender Bias in Machine Translation: a statistical evaluation of Google Translate and DeepL for English, Italian and German. International Conference on Human-informed Translation and Interpreting Technology. 10.26615/issn.2683-0078.2023_001
Rescigno, A. A., Vanmassenhove, E., Monti, J., & Way, A. (2020). A case study of natural gender phenomena in translation. A comparison of Google Translate, Bing Microsoft Translator and DeepL for English to Italian, French and Spanish. Computational Linguistics CLiC-it, 257-262. 10.4000/books.aaccademia.8844
Rivera-Trigueros, I. (2022). Rivera-Trigueros, Irene. Machine translation systems and quality assessment: a systematic review. Language Resources and Evaluation, 56(2), 593-619. 10.1007/s10579-021-09537-5
Scribe, H. (2022). (Happy Scribe). Happy scribe: audio transcription & video subtitles. https://www.happyscribe.com/
See, A., Liu, P. J., & Manning, C. D. (2017). Get to the point: Summarization with pointer-generator networks. 55th Annual Meeting of the Association for Computational Linguistics, 1, 1073-1083. 10.48550/arXiv.1704.04368
Shanahan, M. (2024). Talking about large language models. Communications of the ACM, 67(2), 68-79. 10.1145/3624724
Soni, M., & Wade, V. (2023). Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms. arXiv preprint arXiv:2303.17650. 10.48550/arXiv.2303.17650
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L, & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. 10.48550/arXiv.1706.03762
Wollin-Giering, S., Hoffmann, M., Hofting, J., & Ventzke, C. (2023). Automatic transcription of qualitative interviews. Sociology of Science Discussion Papers. 10.13140/RG.2.2.14480.38404
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., & Klingner, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv. 10.48550/arXiv.1609.08144
Yasunaga, M., Kasai, J., Zhang, R., Liu, Y., & Miyao, Y. (2021). Graph-based neural sentence ordering. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1890-1906.
10.48550/arXiv.1912.07225
Yulianto, A., & Supriatnaningsih, R. (2021). Google translate vs. DeepL: a quantitative evaluation of close-language pair translation (french to english). Asian Journal of English Language and Pedagogy, 9(2), 109-127. 10.37134/ajelp.vol9.2.9.2021
Yusuf, B., Gandhe, A., & Sokolov, A. (2022). Usted: Improving asr with a unified speech and text encoder-decoder. IEEE International Conference on Acoustics, Speech and Signal Processing, 8297-8301. 10.48550/arXiv.2202.06045
Zhang, B., Haddow, B., & Sennrich, R. (2022). Revisiting end-to-end speech-to-text translation from scratch. Em PMLR (Ed.), International Conference on Machine Learning, 26193-26205. 10.48550/arXiv.2206.04571
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 AtoZ: novas práticas em informação e conhecimento

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
La revista AtoZ es una revista científica de acceso abierto y los derechos de autor de artículos y entrevistas pertenecen a sus respectivos autores/encuestados. Los autores otorgan a la AtoZ el direito de incluir el material publicado (revisado por pares/pos-print) en em sistemas/herramientas de indización, agregadores o curadores.
Los autores tienen permiso y se les anima a depositar sus artículos en sus páginas personales, depósitos y/o portales institucionales anteriormente (pre-print) y posteriormente (post-print) a la publicación en esa Revista. Se pide, si possible, que se apunte la referencia bibliográfica del artículo (incluyendose la URL) en base a la AtoZ.
La AtoZ es sello verde por Diadorim/IBICT.
Todo el contenido de la revista (incluyendo las instrucciones, modelos y política editorial) a menos que se indique otra cosa, están bajo una Licencia de Atribución de Bienes Comunes Creativos (CC) 4.0 Internacional.
Cuando los artículos son publicados por esta revista, se pueden compartir (copiar y redistribuir el material en cualquier soporte o formato para cualquier propósito, incluso comercial) y adaptar (remezclar, transformar y crear a partir del material para cualquier propósito, incluso si es comercial). Debe dar el crédito correspondiente, proporcionar un enlace a la licencia e indicar si se realizaron cambios.
La AtoZ no cobra cualquier tasas por la sumisión y/o procesamiento y/o la publicación de artículos.
























