Estimativa de esforço em story point a partir do texto da user story com aprendizagem de máquina e LLM

Página do item simplificado

dc.contributor.advisor1	Moura, José Antão Beltrão Moura
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3572375884177951
dc.contributor.referee1	Morais, Fábio Jorge Almeida
dc.contributor.referee1Lattes	http://lattes.cnpq.br/0987042606840444
dc.contributor.referee2	Costa, Evandro de Barros
dc.contributor.referee2ID	https://orcid.org/0000-0003-4663-8715
dc.contributor.referee2Lattes	http://lattes.cnpq.br/5760364940162939
dc.contributor.referee3	Vieira, Thales Miranda de Almeida
dc.contributor.referee3ID	https://orcid.org/0000-0001-7775-5258
dc.contributor.referee3Lattes	http://lattes.cnpq.br/8181104476035846
dc.contributor.referee4	Bezerra, Tarcio Rodrigues
dc.contributor.referee4Lattes	http://lattes.cnpq.br/5285201763618981
dc.creator	Néo, Giseldo da Silva
dc.creator.ID	https://orcid.org/0000-0001-5574-9260
dc.creator.Lattes	http://lattes.cnpq.br/7407463326170259
dc.date.accessioned	2026-06-16T14:53:54Z
dc.date.available	2026-06-16T14:53:54Z
dc.date.issued	2025-09-16
dc.description.abstract	Effort estimation in agile software projects remains a persistent challenge in the industry, especially when using textual artifacts such as User Stories to predict Story Points. This thesis investigates the use of Natural Language Processing (NLP) and Machine Learning (ML) techniques in effort prediction, considering the textual description of User Stories as the main source of information. Initially, a systematic literature review identified prevalent techniques for the said estimation, such as Term Frequency – Inverse Document Frequency (TF-IDF) combined with Support Vector Machine (SVM), and highlighted gaps related to the use of readability, sentiment, and subjectivity attributes, as well as the sacant of application of Large-Scale Language Models (LLMs) for this task. The research proposed and evaluated three main approaches: (i) the Neo Legibility Effort Model, which uses attributes automatically extracted from User Story text to predict effort; (ii) the Neo User Story Tutor, an LLM-based application that suggests improvements in User Story writing to improve estimation accuracy; and (iii) the Neo LLM Predictor, which uses LLMs to directly estimate Story Points using different strategies (few-shot, zero-shot, and fine-tuning). To support the experiments a new dataset collected from real projects hosted on GitLab, was built (aka NeoDataset). The proposed models were evaluated using metrics such as MAE and compared with established baselines in the literature. The results demonstrated that both readability attributes and LLMs can significantly contribute to improving effort estimates in agile environments. The thesis presents evidence that it is possible to increase estimate accuracy through the combination of textual analysis and machine learning, in addition to highlighting the relevance of linguistic aspects in the quality of User Stories.
dc.description.resumo	A estimativa de esforço em projetos ágeis de software continua sendo um desafio persistente na indústria, especialmente quando se utilizam artefatos textuais como User Stories para prever os Story Points. Esta tese investiga o uso de técnicas de Processamento de Linguagem Natural (PLN) e Aprendizagem de Máquina (AM) na previsão de esforço, considerando as descrições textuais das User Stories como a principal fonte de informação. Inicialmente, uma revisão sistemática da literatura identificou técnicas predominantes, como Term Frequency – Inverse Document Frequency (TF-IDF) combinado com Support Vector Machine (SVM), e destacou lacunas relacionadas ao uso de atributos de legibilidade, sentimento e subjetividade, bem como à aplicação de Large Language Models (LLMs) nessa tarefa. A pesquisa propôs três abordagens principais: (i) o Neo Legibility Effort Model, que utiliza atributos extraídos automaticamente do texto da User Story para prever o esforço; (ii) o Neo User Story Tutor, uma aplicação baseada em LLMs para sugerir melhorias na escrita das User Stories, visando a maior precisão nas estimativas; e (iii) o Neo LLM Predictor, que utiliza LLMs para estimar diretamente os Story Points com diferentes estratégias (few-shot, zero-shot e fine-tuning). Para suportar os experimentos, foi construído o NeoDataset, um novo conjunto de dados coletado a partir de projetos reais hospedados no GitLab. Os modelos propostos foram avaliados com métricas, como o Mean Absolute Error (MAE), e comparados com baselines consagrados na literatura. Os resultados demonstraram que tanto os atributos de legibilidade quanto os LLMs podem contribuir significativamente para a melhoria das estimativas de esforço em ambientes ágeis. A tese apresenta evidências de que é possível aumentar a acurácia das estimativas por meio da combinação de análise textual e aprendizado de máquina, além de destacar a relevância de aspectos linguísticos na qualidade das User Stories.
dc.identifier.citation	Néo, Giseldo da Silva. Estimativa de esforço em Story Point a partir do texto da User Story com aprendizagem de máquina e LLM / Giseldo da Silva Néo. – 2026. 306 f. : il. color. Tese (doutorado em Ciência da Computação) – Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, 2025. “Orientação: Prof. Dr. José Antão Beltrão Moura”. Referências. 1. Estimativa de Esforço. 2. Large Language Models. 3. Story point. 4. User story. I. Moura, José Antão Beltrão. II. Título.
dc.identifier.uri	https://repositorio.ifal.edu.br/handle/123456789/3089
dc.language.iso	pt_BR
dc.publisher	UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - UFCG
dc.publisher.country	Brasil
dc.publisher.department	Campus Viçosa
dc.subject	Estimativa de esforço
dc.subject	Large language models
dc.subject	Story point
dc.subject	User story
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO
dc.title	Estimativa de esforço em story point a partir do texto da user story com aprendizagem de máquina e LLM
dc.type	Tese

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Tese_Giseldo da Silva Néo.pdf
Tamanho:: 7.6 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.66 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Teses não defendidas no IFAL