grupo 3 - Algoritmos mais usados no machine learning.pptx
Michael744331
7 views
90 slides
Sep 06, 2025
Slide 1 of 90
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
About This Presentation
este artigo aborta os algoritimos mais usados no processo de machine earning
Size: 7.18 MB
Language: pt
Added: Sep 06, 2025
Slides: 90 pages
Slide Content
Smart mining Most Used Machine Learning Algorithms 1
Introdução Machine Learning utiliza algoritmos capazes de aprender padrões em grandes volumes de dados e realizar previsões ou classificações automáticas. Os algoritmos mais usados dividem-se em três categorias principais: Supervisionados , Não Supervisionados e Aprendizado por Reforço . Cada um é adequado para tipos específicos de problemas, como prever valores numéricos, classificar situações ou identificar padrões ocultos. A escolha correta do algoritmo é essencial para obter resultados precisos e úteis. 2
Supervisionados 3
4
5
6
Regressão Linear Regressão Linear é um algoritmo de aprendizado supervisionado utilizado em Machine Learning para modelar a relação entre uma ou mais variáveis independentes (entrada) e uma variável dependente (saída) de natureza contínua . O objetivo é encontrar a melhor função linear que represente os dados observados e possa prever valores futuros com base em novos dados de entrada. 7
Para que serve 8
Por que é tão usada no Machine Learning 9
Arquitetura da Regressão Linear 10
Funcionalidade 11
Arquitetura 12
Vantagens e Desvantagens e limitações Vantagens Facilidade de implementação e interpretação Baixo custo computacionalBom desempenho com conjuntos de dados pequenos e médios Permite inferência estatística e teste de hipóteses Desvantagens e limitações Não funciona bem com dados que tenham relações não lineares entre variáveis . Valores extremos podem distorcer completamente a reta de regressão . Não captura interações complexas entre variáveis, como modelos não lineares ou baseados em árvores. 13
14 RANDOM FORESTS
O que é o Algoritmo Random Forest ? Random Forest é um algoritmo de aprendizado por conjunto (ensemble learning) que opera construindo múltiplas árvores de decisão durante o treino e gerando a classe que é o modo das classes ( classificação ) ou a previsão média ( regressão ) das árvores individuais . O conceito central é que uma coleção de modelos de decisão " fracos " ou medianos pode superar um único modelo "forte" se as suas previsões forem agregadas de forma inteligente . 15
CONT… O Random Forest melhora a estabilidade e a precisão dessas árvores , mitigando o risco de sobreajuste ( overfitting ) que árvores de decisão individuais podem apresentar . 16
Diferença entre Árvore de Decisão e Floresta Aleatória 17
Etapas envolvidas no algoritmo Random Forest Etapa 1 – Primeiro, criamos subconjuntos dos nossos dados originais. Faremos amostragem de linhas e amostragem de recursos, ou seja, selecionaremos linhas e colunas com substituição e criaremos subconjuntos do conjunto de dados de treinamento. Etapa 2 – Criamos uma árvore de decisão individual para cada subconjunto que tomamos Etapa 3 – Cada árvore de decisão fornecerá uma saída Etapa 4 – O resultado final é considerado com base na votação majoritária se for um problema de classificação e na média se for um problema de regressão. 18
Vantagens e Desvantagens Vantagens Alta precisão e estabilidade . Reduz overfitting devido à aleatoriedade dos dados e atributos . Funciona bem mesmo com dados grandes e complexos. Pode lidar com variáveis categóricas e numéricas. Desvantagens Mais lento para treinar e prever que uma única árvore. Difícil de interpretar (menos explicável que uma árvore simples). Pode exigir bastante memória. 19
20
Definition O algoritmo K-Means é uma técnica de aprendizado não supervisionado usada principalmente em problemas de clusterização quando dados rotulados não estão disponíveis. Seu objetivo é dividir um conjunto de dados em grupos (ou clusters), de forma que os dados dentro de cada grupo sejam mais semelhantes entre si do que em relação aos dados de outros grupos. 21 o “K” no nome refere-se ao número de clusters que se deseja identificar. Inicialmente, o K-Means seleciona aleatoriamente K centros, chamados de centroides, e depois ajusta esses centroides repetidamente até encontrar a melhor separação entre os dados
Funcionamento 1.Definir o Número de Clusters (K): Primeiramente, é necessário decidir quantos grupos você deseja criar. Vamos supor que você queira identificar três perfis de clientes. Logo, K = 3. 2.icializar os Centroides: escolher pontos iniciais que representarão os centros dos clusters, chamados de “centroides”. Esses pontos são escolhidos aleatoriamente no início. 3.Atribuir Cada Ponto ao Cluster Mais Próximo: Cada cliente é então associado ao centro mais próximo, com base em alguma métrica de distância, geralmente a distância euclidiana. Desta forma, cada cliente passa a pertencer temporariamente a um dos três grupos. 4.Recalcular os Centroides: Após a atribuição inicial, o centro de cada cluster é recalculado com base na média dos pontos atribuídos a ele. Isso é como mudar a localização do ponto central para melhor representar o grupo. 5.Iterar até a Convergência: As etapas 3 e 4 se repetem, atribuindo novamente os pontos ao cluster mais próximo e recalculando os centroides, até que a posição dos centroides não mude mais ou até que uma condição de parada seja atingida. Esse processo é chamado de convergência. 22
cont 23
Vantagens e Desvantagens Vantagens Entre as vantagens do K-Means está sua simplicidade e eficiência em termos computacionais. Ele é particularmente eficaz para grandes conjuntos de dados e pode ser relativamente rápido em comparação com outros algoritmos de clustering. Desvantagens K-Means é sensível à escolha inicial dos centroides e pode convergir para soluções locais que não são ótimas. Além disso, ele não lida bem com clusters de formatos não esferoidais ou quando há diferenças significativas nos tamanhos dos grupos. 24
Exemplo 25
Cont. 26
cont 27
28
29
Aplications Segmentacao de clientes:as empresas usam k-means para agrupar clients com base em comportamentos . Analise de imagens:O k-means e usado para compreensao de imagens , agrupando pixels de cores semelhantes , assim como na segmentacao de imagens . Analise de dados geospaciais : o K-means pode ajudar a identificar regioes geograficas com mesmas caracteristicas . 30
31
32
Regressão Logística A Regressão Logística é um algoritmo de aprendizado supervisionado utilizado para resolver problemas de classificação binária ou multiclasse, onde a variável de saída (dependente) é categórica, geralmente representada como 0 ou 1 (por exemplo, sim/não, falha/não-falha ). Apesar do nome "regressão", ela não é usada para prever valores contínuos, mas sim para estimar a probabilidade de uma amostra pertencer a uma determinada classe. 33
Como funciona A regressão logística parte de uma equação linear similar à da regressão linear : Em seguida, aplica-se a função sigmoide ao resultado: Essa função transforma qualquer número real em um valor entre 0 e 1, que pode ser interpretado como probabilidade . Se o valor for ≥ 0,5, a amostra é classificada como pertencente à classe 1 ; se for < 0,5, pertence à classe 0 (no caso binário). 34
35 Essa função transforma qualquer número real em um valor entre 0 e 1, que pode ser interpretado como probabilidade . Se o valor for ≥ 0,5, a amostra é classificada como pertencente à classe 1 ; se for < 0,5, pertence à classe 0 (no caso binário).
36
Arquitetura 37
Arquitetura Camada de entrada : recebe os dados de entrada (variáveis independentes). Camada linear : calcula uma combinação linear dos pesos e das entradas. Camada de ativação sigmoide (ou softmax, em multiclasse) : converte o resultado em probabilidade. Camada de decisão : compara a probabilidade com um limiar (geralmente 0,5) para classificar. 38
Para que serve Diagnóstico de falhas em máquinas (ex: prever se um equipamento vai falhar ou não) Classificação de qualidade de minério (ex: minério aproveitável ou estéril) Identificação de riscos (ex: risco ambiental alto ou baixo) Controle de processos (ex: se um processo está fora do padrão ou não) 39
Vantagens , Desvantagens e Limitações Vantagens Os coeficientes indicam como cada variável influencia a chance de pertencimento à classe. útil em decisões onde se quer medir o grau de confiança. Baixo custo computacional : ideal para bases de dados grandes. Desvantagens e Limitações Sensível à multicolinearidade (quando variáveis de entrada são muito correlacionadas). Requer normalização ou padronização dos dados para boa performance. Não lida bem com outliers , que podem distorcer os coeficientes. 40
41
KNN – K-Nearest Neighbors / Como funciona É um algoritmo de machine learning supervisionado geralmente usado para classificação, mas também pode ser usado para tarefas de regressão. Algoritmo supervisionado para classificação e regressão. Baseia-se na proximidade dos dados: prevê o valor de um ponto com base nos seus K vizinhos mais próximos. 42
Como escolher o K ideal 43 O método do cotovelo é uma técnica usada para escolher o melhor número de clusters para o agrupamento K-Means. A ideia básica é observar como a inércia (custo) muda à medida que aumentamos o número de clusters.
Como escolher o K ideal 44 Na figura acima, observa-se claramente que a distribuição de pontos forma 3 clusters. Agora, vamos ver como o método do cotovelo forma seu gráfico.
Métricas de Distância Distância Euclidiana: mais comum e usada como padrão no sklearn do Python usa para o K-vizinho mais próximo. É uma medida da distância em linha reta real entre dois pontos no espaço euclidiano. 45
Vantagens e Desvantagens 46
47
SVM – Support Vector Machine Algoritmo supervisionado usado para classificação. Busca o melhor hiperplano que separa as classes com a maior margem possível. 48 Hiperplano : Um limite de decisão que separa diferentes classes. ( ax + b = 0)
Como o SVM Funciona ? Calcula o hiperplano que maximiza a margem entre duas classes. Ignora outliers e busca a separação mais eficiente possível. Usa funções kernel para lidar com dados não linearmente separáveis. 49 Aqui, temos uma bola azul no limite da bola vermelha.
Como o SVM Funciona ? Calcula o hiperplano que maximiza a margem entre duas classes. Ignora outliers e busca a separação mais eficiente possível. Usa funções kernel para lidar com dados não linearmente separáveis. 50
Tipos de SVM 51 Com base na natureza do limite de decisão, as Máquinas de Vetores de Suporte (MVS) podem ser divididas em duas partes principais:
Implementação Usando scikit-learn em Python. Requer ajuste de parâmetros como: C (regularização), Tipo de kernel (linear, rbf, polynomial, etc.). 52
Implementação 53
Vantagens 54
Desvantagens 55
56
Árvore de Decisão (Decision Tree) Algoritmo supervisionado para classificação e regressão. Divide os dados com base em atributos, criando uma estrutura de nós e folhas. 57
Estrutura da Árvore 58
Como funciona 1. Seleciona o melhor atributo (usando entropia, Gini ou ganho de informação). 2. Divide os dados em subconjuntos. 3. Repete recursivamente até atingir critérios de parada (por exemplo, pureza total). 59
Exemplo 60
Exemplo 61
Quando usar ? 62
Medidas de Qualidade Entropia : mede a incerteza dos dados (quanto menor, melhor ). A entropia ajuda a escolher qual característica dividir em cada nó de decisão da árvore. O objetivo é reduzir a entropia a cada divisão para criar subconjuntos o mais puros possível. 63
Impureza de Gini : mede a chance de erro na classificação (valor ideal → próximo de 0 ). Os algoritmos de árvore de decisão visam minimizar a impureza de Gini em cada nó, selecionando a característica e o ponto de divisão que resultam na menor impureza. 64
Vantagens e Desvantagens Vantagens Fácil de interpretar (visual). Funciona com dados com valores ausentes. Suporta tanto classificação quanto regressão. Desvantagens Pode sofrer sobreajuste (overfitting). Menos eficaz com grandes variações nos dados. 65
66
Naive Bayes O algoritmo assume que os dados independentes são independentes de todos os outros recursos; por isso, ele recebe o nome de “ingênuo ”. Na prática, isso raramente é verdade (por causa da multicolinearidade), por isso o nome “ingênuo” (Naive ). O que é multicolinearidade ? Multicolinearidade em aprendizado de máquina é o conjunto de dados que possui correlações entre suas características independentes
Naive Bayes: Princípios Fundamentais e o Teorema de Bayes 68 O algoritmo Naive Bayes é um tipo de algoritmo que trabalha com o conceito de probabilidade condicional e o teorema bayesiano . Regra de Bayes Probabilidade Condicional
Tipos de Naive Bayes 69 A escolha do tipo de Naive Bayes depende da natureza dos dados de entrada.
Aplicações do Naive Bayes
Vantagens e Desvantagens Rápido no treinamento e na predição Funciona bem com poucos dados Ideal para dados categóricos Fácil de implementar Ignora Correlações : A sua suposição de independência ignora as correlações entre as características , o que pode ser uma vantagem em casos onde a multicolinearidade seria um problema para outros modelos . Assume independência total entre atributos Erro de frequência zero: categorias ausentes no treino recebem probabilidade zero Pode não funcionar bem com dados altamente correlacionados Menos Adequado para Regressão
Quando usar Naive Bayes ? O algoritmo Naive Bayes pode ser usado se não houver multicolinearidade nos recursos independentes e se as probabilidades dos recursos fornecerem alguma informação valiosa aos algoritmos . Este algoritmo também deve ser preferido para problemas de classificação de texto. Deve-se evitar o uso do algoritmo Naive Bayes quando os dados são inteiramente numéricos e há multicolinearidade no conjunto de dados. 72 Nb: O Classificador Naive Bayes assume que o conjunto de dados fornecido ao algoritmo é independente e que os recursos independentes são separados e não dependem de outros fatores, e é por isso que o algoritmo Naive Bayes é chamado de Naive
Não Supervisionados 73
74
PCA – Análise de Componentes Principais PCA é uma técnica estatística que realiza redução de dimensionalidade, transformando variáveis correlacionadas em novos componentes independentes, preservando a maior quantidade possível de informação original . É amplamente usada para visualização, redução de ruído e melhoria de desempenho em modelos de aprendizado de máquina. 75
Etapas do PCA 76
Cálculo da matriz de covariância para identificar correlações 77 A matriz mostra como as variáveis se relacionam, indicando correlação positiva, negativa ou nula entre os pares de variáveis.
Interpretação dos resultados da PCA O gráfico com os dois primeiros componentes revela agrupamentos e padrões nos dados . Setas das variáveis mostram quais atributos mais influenciam cada componente . A quantidade de componentes escolhidos busca equilibrar a simplicidade da análise com a manutenção da informação essencial. 78
Interpretação dos resultados da PCA 79
Implementação em Python 80
Quando Usar o PCA? Quando há muitas variáveis correlacionadas ; Quando é difícil visualizar dados em alta dimensão ; Quando se deseja reduzir o tempo de processamento em modelos com muitos atributos. 81
Aprendizado por Reforço 82
83
Apriori O Apriori é um algoritmo de aprendizado não supervisionado, utilizado na mineração de dados para descobrir regras de associação entre itens . Essas regras permitem identificar padrões frequentes, conexões e dependências entre grupos de itens em grandes bases de dados transacionais. 84
Como Funciona 85
Como Funciona 86
Métricas Utilizadas 87 Suporte : Frequência com que um conjunto de itens aparece no banco de dados. Confiança : Probabilidade de ocorrência de B dado que A ocorreu. Elevação (Lift) : Mede o quanto a ocorrência conjunta de A e B é maior do que seria caso fossem independentes. Lift > 1 indica associação positiva.