Estimativa de esforço em story point a partir do texto da user story com aprendizagem de máquina e LLM

dc.contributor.advisor1Moura, José Antão Beltrão Moura
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3572375884177951
dc.contributor.referee1Morais, Fábio Jorge Almeida
dc.contributor.referee1Latteshttp://lattes.cnpq.br/0987042606840444
dc.contributor.referee2Costa, Evandro de Barros
dc.contributor.referee2IDhttps://orcid.org/0000-0003-4663-8715
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5760364940162939
dc.contributor.referee3Vieira, Thales Miranda de Almeida
dc.contributor.referee3IDhttps://orcid.org/0000-0001-7775-5258
dc.contributor.referee3Latteshttp://lattes.cnpq.br/8181104476035846
dc.contributor.referee4Bezerra, Tarcio Rodrigues
dc.contributor.referee4Latteshttp://lattes.cnpq.br/5285201763618981
dc.creatorNéo, Giseldo da Silva
dc.creator.IDhttps://orcid.org/0000-0001-5574-9260
dc.creator.Latteshttp://lattes.cnpq.br/7407463326170259
dc.date.accessioned2026-06-16T14:53:54Z
dc.date.available2026-06-16T14:53:54Z
dc.date.issued2025-09-16
dc.description.abstractEffort estimation in agile software projects remains a persistent challenge in the industry, especially when using textual artifacts such as User Stories to predict Story Points. This thesis investigates the use of Natural Language Processing (NLP) and Machine Learning (ML) techniques in effort prediction, considering the textual description of User Stories as the main source of information. Initially, a systematic literature review identified prevalent techniques for the said estimation, such as Term Frequency – Inverse Document Frequency (TF-IDF) combined with Support Vector Machine (SVM), and highlighted gaps related to the use of readability, sentiment, and subjectivity attributes, as well as the sacant of application of Large-Scale Language Models (LLMs) for this task. The research proposed and evaluated three main approaches: (i) the Neo Legibility Effort Model, which uses attributes automatically extracted from User Story text to predict effort; (ii) the Neo User Story Tutor, an LLM-based application that suggests improvements in User Story writing to improve estimation accuracy; and (iii) the Neo LLM Predictor, which uses LLMs to directly estimate Story Points using different strategies (few-shot, zero-shot, and fine-tuning). To support the experiments a new dataset collected from real projects hosted on GitLab, was built (aka NeoDataset). The proposed models were evaluated using metrics such as MAE and compared with established baselines in the literature. The results demonstrated that both readability attributes and LLMs can significantly contribute to improving effort estimates in agile environments. The thesis presents evidence that it is possible to increase estimate accuracy through the combination of textual analysis and machine learning, in addition to highlighting the relevance of linguistic aspects in the quality of User Stories.
dc.description.resumoA estimativa de esforço em projetos ágeis de software continua sendo um desafio persistente na indústria, especialmente quando se utilizam artefatos textuais como User Stories para prever os Story Points. Esta tese investiga o uso de técnicas de Processamento de Linguagem Natural (PLN) e Aprendizagem de Máquina (AM) na previsão de esforço, considerando as descrições textuais das User Stories como a principal fonte de informação. Inicialmente, uma revisão sistemática da literatura identificou técnicas predominantes, como Term Frequency – Inverse Document Frequency (TF-IDF) combinado com Support Vector Machine (SVM), e destacou lacunas relacionadas ao uso de atributos de legibilidade, sentimento e subjetividade, bem como à aplicação de Large Language Models (LLMs) nessa tarefa. A pesquisa propôs três abordagens principais: (i) o Neo Legibility Effort Model, que utiliza atributos extraídos automaticamente do texto da User Story para prever o esforço; (ii) o Neo User Story Tutor, uma aplicação baseada em LLMs para sugerir melhorias na escrita das User Stories, visando a maior precisão nas estimativas; e (iii) o Neo LLM Predictor, que utiliza LLMs para estimar diretamente os Story Points com diferentes estratégias (few-shot, zero-shot e fine-tuning). Para suportar os experimentos, foi construído o NeoDataset, um novo conjunto de dados coletado a partir de projetos reais hospedados no GitLab. Os modelos propostos foram avaliados com métricas, como o Mean Absolute Error (MAE), e comparados com baselines consagrados na literatura. Os resultados demonstraram que tanto os atributos de legibilidade quanto os LLMs podem contribuir significativamente para a melhoria das estimativas de esforço em ambientes ágeis. A tese apresenta evidências de que é possível aumentar a acurácia das estimativas por meio da combinação de análise textual e aprendizado de máquina, além de destacar a relevância de aspectos linguísticos na qualidade das User Stories.
dc.identifier.citationNéo, Giseldo da Silva. Estimativa de esforço em Story Point a partir do texto da User Story com aprendizagem de máquina e LLM / Giseldo da Silva Néo. – 2026. 306 f. : il. color. Tese (doutorado em Ciência da Computação) – Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, 2025. “Orientação: Prof. Dr. José Antão Beltrão Moura”. Referências. 1. Estimativa de Esforço. 2. Large Language Models. 3. Story point. 4. User story. I. Moura, José Antão Beltrão. II. Título.
dc.identifier.urihttps://repositorio.ifal.edu.br/handle/123456789/3089
dc.language.isopt_BR
dc.publisherUNIVERSIDADE FEDERAL DE CAMPINA GRANDE - UFCG
dc.publisher.countryBrasil
dc.publisher.departmentCampus Viçosa
dc.subjectEstimativa de esforço
dc.subjectLarge language models
dc.subjectStory point
dc.subjectUser story
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO
dc.titleEstimativa de esforço em story point a partir do texto da user story com aprendizagem de máquina e LLM
dc.typeTese

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Tese_Giseldo da Silva Néo.pdf
Tamanho:
7.6 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.66 KB
Formato:
Item-specific license agreed upon to submission
Descrição: