Estimativa de esforço em story point a partir do texto da user story com aprendizagem de máquina e LLM
| dc.contributor.advisor1 | Moura, José Antão Beltrão Moura | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3572375884177951 | |
| dc.contributor.referee1 | Morais, Fábio Jorge Almeida | |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/0987042606840444 | |
| dc.contributor.referee2 | Costa, Evandro de Barros | |
| dc.contributor.referee2ID | https://orcid.org/0000-0003-4663-8715 | |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/5760364940162939 | |
| dc.contributor.referee3 | Vieira, Thales Miranda de Almeida | |
| dc.contributor.referee3ID | https://orcid.org/0000-0001-7775-5258 | |
| dc.contributor.referee3Lattes | http://lattes.cnpq.br/8181104476035846 | |
| dc.contributor.referee4 | Bezerra, Tarcio Rodrigues | |
| dc.contributor.referee4Lattes | http://lattes.cnpq.br/5285201763618981 | |
| dc.creator | Néo, Giseldo da Silva | |
| dc.creator.ID | https://orcid.org/0000-0001-5574-9260 | |
| dc.creator.Lattes | http://lattes.cnpq.br/7407463326170259 | |
| dc.date.accessioned | 2026-06-16T14:53:54Z | |
| dc.date.available | 2026-06-16T14:53:54Z | |
| dc.date.issued | 2025-09-16 | |
| dc.description.abstract | Effort estimation in agile software projects remains a persistent challenge in the industry, especially when using textual artifacts such as User Stories to predict Story Points. This thesis investigates the use of Natural Language Processing (NLP) and Machine Learning (ML) techniques in effort prediction, considering the textual description of User Stories as the main source of information. Initially, a systematic literature review identified prevalent techniques for the said estimation, such as Term Frequency – Inverse Document Frequency (TF-IDF) combined with Support Vector Machine (SVM), and highlighted gaps related to the use of readability, sentiment, and subjectivity attributes, as well as the sacant of application of Large-Scale Language Models (LLMs) for this task. The research proposed and evaluated three main approaches: (i) the Neo Legibility Effort Model, which uses attributes automatically extracted from User Story text to predict effort; (ii) the Neo User Story Tutor, an LLM-based application that suggests improvements in User Story writing to improve estimation accuracy; and (iii) the Neo LLM Predictor, which uses LLMs to directly estimate Story Points using different strategies (few-shot, zero-shot, and fine-tuning). To support the experiments a new dataset collected from real projects hosted on GitLab, was built (aka NeoDataset). The proposed models were evaluated using metrics such as MAE and compared with established baselines in the literature. The results demonstrated that both readability attributes and LLMs can significantly contribute to improving effort estimates in agile environments. The thesis presents evidence that it is possible to increase estimate accuracy through the combination of textual analysis and machine learning, in addition to highlighting the relevance of linguistic aspects in the quality of User Stories. | |
| dc.description.resumo | A estimativa de esforço em projetos ágeis de software continua sendo um desafio persistente na indústria, especialmente quando se utilizam artefatos textuais como User Stories para prever os Story Points. Esta tese investiga o uso de técnicas de Processamento de Linguagem Natural (PLN) e Aprendizagem de Máquina (AM) na previsão de esforço, considerando as descrições textuais das User Stories como a principal fonte de informação. Inicialmente, uma revisão sistemática da literatura identificou técnicas predominantes, como Term Frequency – Inverse Document Frequency (TF-IDF) combinado com Support Vector Machine (SVM), e destacou lacunas relacionadas ao uso de atributos de legibilidade, sentimento e subjetividade, bem como à aplicação de Large Language Models (LLMs) nessa tarefa. A pesquisa propôs três abordagens principais: (i) o Neo Legibility Effort Model, que utiliza atributos extraídos automaticamente do texto da User Story para prever o esforço; (ii) o Neo User Story Tutor, uma aplicação baseada em LLMs para sugerir melhorias na escrita das User Stories, visando a maior precisão nas estimativas; e (iii) o Neo LLM Predictor, que utiliza LLMs para estimar diretamente os Story Points com diferentes estratégias (few-shot, zero-shot e fine-tuning). Para suportar os experimentos, foi construído o NeoDataset, um novo conjunto de dados coletado a partir de projetos reais hospedados no GitLab. Os modelos propostos foram avaliados com métricas, como o Mean Absolute Error (MAE), e comparados com baselines consagrados na literatura. Os resultados demonstraram que tanto os atributos de legibilidade quanto os LLMs podem contribuir significativamente para a melhoria das estimativas de esforço em ambientes ágeis. A tese apresenta evidências de que é possível aumentar a acurácia das estimativas por meio da combinação de análise textual e aprendizado de máquina, além de destacar a relevância de aspectos linguísticos na qualidade das User Stories. | |
| dc.identifier.citation | Néo, Giseldo da Silva. Estimativa de esforço em Story Point a partir do texto da User Story com aprendizagem de máquina e LLM / Giseldo da Silva Néo. – 2026. 306 f. : il. color. Tese (doutorado em Ciência da Computação) – Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, 2025. “Orientação: Prof. Dr. José Antão Beltrão Moura”. Referências. 1. Estimativa de Esforço. 2. Large Language Models. 3. Story point. 4. User story. I. Moura, José Antão Beltrão. II. Título. | |
| dc.identifier.uri | https://repositorio.ifal.edu.br/handle/123456789/3089 | |
| dc.language.iso | pt_BR | |
| dc.publisher | UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - UFCG | |
| dc.publisher.country | Brasil | |
| dc.publisher.department | Campus Viçosa | |
| dc.subject | Estimativa de esforço | |
| dc.subject | Large language models | |
| dc.subject | Story point | |
| dc.subject | User story | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO | |
| dc.title | Estimativa de esforço em story point a partir do texto da user story com aprendizagem de máquina e LLM | |
| dc.type | Tese |