Apresentação sobre artigo relacionado a Testes de Software
MariaGame1
0 views
8 slides
Oct 06, 2025
Slide 1 of 8
1
2
3
4
5
6
7
8
About This Presentation
Apresentação sobre artigo relacionado a Testes de Software
Size: 144.54 KB
Language: pt
Added: Oct 06, 2025
Slides: 8 pages
Slide Content
Artigo: Quality Assurance for LLM-RAG Systems: Empirical Insights
from Tourism Application Testing
A arquitetura suporta dois modos de operação: RAG
(utilizando o contexto recuperado para ancoragem) e Não-RAG
(confiando apenas na base de conhecimento do LLM), o que
permite uma comparação isolada da contribuição do RAG.
A metodologia é o núcleo da pesquisa, focando na
avaliação sistemática do sistema sob 24 configurações de
teste (3 Modelos x 4 Configurações de Parâmetros x 2 Modos
RAG/Não-RAG).
Capítulo III - Arquitetura da Aplicação em Teste
Pipeline de Recomendação de Turismo
●
A arquitetura do sistema, ilustrada na Figura 1, implementa uma pipeline abrangente
que transforma dados brutos de turismo em recomendações de viagens
contextualmente relevantes por meio de quatro etapas principais: 1) aquisição e
pré-processamento de dados, 2) geração de incorporação, 3) mecanismo de
recuperação e 4) geração de consultas aumentadas.
O pipeline é implementado em Python e processa dados da API de Turismo de
Värmland, convertendo-os em formato JSONL.
O processo de chunking (divisão em blocos) e embedding é detalhado, com os
vetores armazenados em um banco de dados FAISS para buscas eficientes.
O sistema utiliza processamento paralelo para geração de incorporação,
garantindo escalabilidade e eficiência no tratamento de grandes conjuntos de dados.
Capítulo III - Arquitetura da Aplicação em Teste
Pipeline de Recomendação de Turismo
●Detalhes da Implementação (Cap. III)
Tecnologias e Componentes Chave
●
A implementação foi escrita principalmente em Python.
As bibliotecas principais utilizadas incluem FAISS para buscas de
similaridade eficientes, Evidently para avaliar saídas de modelos e
OpenAI API para interface com diferentes versões do LLM.
Os embeddings gerados são organizados em um banco de dados FAISS
(Facebook AI Similarity Search).
Este componente fornece recursos eficientes de busca por similaridade e
serve como o principal mecanismo de recuperação para o sistema.
●Capítulo IV - Metodologia de Teste
Objetivos e Estrutura da Avaliação
●
O principal objetivo deste estudo foi criar um conjunto automatizado de testes
que podem ser realizados em vários modelos e Configurações para rastrear e
avaliar o desempenho de uma aplicação LLM ao longo de seu ciclo de vida.
Para ilustrar isso, foram realizados testes em uma aplicação de planejamento de
viagens com parâmetros variados para simular testes de regressão em um
contexto real de desenvolvimento de software.
O terceiro objetivo foi avaliar se o uso do RAG influencia os resultados dos
testes.
O escopo do teste abrange 17 testes distintos, organizados em três categorias
fundamentais: 1) métricas de texto, 2) avaliações de similaridade semântica e
3) avaliações baseadas em LLM.
●Capítulo IV - As 17 Métricas de Teste
A Avaliação Abrangente da Qualidade
●
A estrutura de teste utiliza 17 métricas distintas, organizadas em três categorias:
Métricas de Texto: Avaliam características sintáticas e de formato (e.g., contagem de palavras,
taxa de caracteres não-alfabéticos).
Similaridade Semântica: Utiliza embeddings de palavras e codificação BERT para quantificar a
similaridade cosseno entre as respostas geradas e as respostas de referência (humanas),
medindo a qualidade da informação.
Avaliações Comportamentais (LLM como Juiz): Oito testes de qualidade extrafuncional,
usando o GPT-4 para julgar a saída quanto a sentimento, toxicidade, neutralidade, viés
(sexual, religioso, racial) e conformidade com a privacidade.
Três desses testes fornecem avaliações de escala contínua : Análise de sentimento (escala:
-1 a 1) , Detecção de toxicidade (escala: 0 a 1) , Avaliação de neutralidade (escala: 0 a 1).
Os cinco testes restantes realizam avaliações categóricas com classificações binárias.
Capítulo V - Desenho Experimental
A Matriz de Avaliação
●
Nossa estrutura de avaliação experimental implementou um protocolo de avaliação abrangente
compreendendo
24 diferentes configurações de teste.
A matriz de avaliação incorporou três principais variantes LLM: GPT 3.5 Turbo, GPT 4o e GPT 4o
Mini.
A exploração do espaço de parâmetros concentrou-se em dois aspectos críticos de controles de
geração de resposta:
Parâmetro de temperatura: Controla a variação estocástica em geração de resposta.
Parâmetro Top-p: governa a diversidade no token de saída no processo de seleção.
O protocolo experimental implementou um
fatorial completo do projeto: Três arquiteturas de modelos distintas, Quatro configurações de
parâmetros por modelo, Modos de teste duplos (com e sem integração RAG).
Automação e Reprodutibilidade nos Testes de LLM
A estrutura de testes é implementada usando o Evidently, uma plataforma
de código aberto projetada para avaliação de aprendizado de máquina.
Nossa implementação prioriza a automação e a reprodutibilidade, exigindo
intervenção mínima do usuário.
A arquitetura de coleta de dados implementa um sofisticado pipeline para
coleta, armazenamento e análise de resultados de testes.
Essa arquitetura permite análises em tempo real e estudos de
desempenho longitudinal, mantendo ao mesmo tempo a integridade e
rastreabilidade do comportamento do sistema em diferentes configurações.