grupo 3 - Algoritmos mais usados no machine learning.pptx

Michael744331 7 views 90 slides Sep 06, 2025
Slide 1
Slide 1 of 90
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75
Slide 76
76
Slide 77
77
Slide 78
78
Slide 79
79
Slide 80
80
Slide 81
81
Slide 82
82
Slide 83
83
Slide 84
84
Slide 85
85
Slide 86
86
Slide 87
87
Slide 88
88
Slide 89
89
Slide 90
90

About This Presentation

este artigo aborta os algoritimos mais usados no processo de machine earning


Slide Content

Smart mining Most Used Machine Learning Algorithms 1

Introdução Machine Learning utiliza algoritmos capazes de aprender padrões em grandes volumes de dados e realizar previsões ou classificações automáticas. Os algoritmos mais usados dividem-se em três categorias principais: Supervisionados , Não Supervisionados e Aprendizado por Reforço . Cada um é adequado para tipos específicos de problemas, como prever valores numéricos, classificar situações ou identificar padrões ocultos. A escolha correta do algoritmo é essencial para obter resultados precisos e úteis. 2

Supervisionados 3

4

5

6

Regressão Linear Regressão Linear é um algoritmo de aprendizado supervisionado utilizado em Machine Learning para modelar a relação entre uma ou mais variáveis independentes (entrada) e uma variável dependente (saída) de natureza contínua . O objetivo é encontrar a melhor função linear que represente os dados observados e possa prever valores futuros com base em novos dados de entrada. 7

Para que serve 8

Por que é tão usada no Machine Learning 9

Arquitetura da Regressão Linear 10

Funcionalidade 11

Arquitetura 12

Vantagens e Desvantagens e limitações Vantagens Facilidade de implementação e interpretação Baixo custo computacionalBom desempenho com conjuntos de dados pequenos e médios Permite inferência estatística e teste de hipóteses Desvantagens e limitações Não funciona bem com dados que tenham relações não lineares entre variáveis . Valores extremos podem distorcer completamente a reta de regressão . Não captura interações complexas entre variáveis, como modelos não lineares ou baseados em árvores. 13

14 RANDOM FORESTS

O que é o Algoritmo Random Forest ? Random Forest é um algoritmo de aprendizado por conjunto (ensemble learning) que opera construindo múltiplas árvores de decisão durante o treino e gerando a classe que é o modo das classes ( classificação ) ou a previsão média ( regressão ) das árvores individuais . O conceito central é que uma coleção de modelos de decisão " fracos " ou medianos pode superar um único modelo "forte" se as suas previsões forem agregadas de forma inteligente . 15

CONT… O Random Forest melhora a estabilidade e a precisão dessas árvores , mitigando o risco de sobreajuste ( overfitting ) que árvores de decisão individuais podem apresentar . 16

Diferença entre Árvore de Decisão e Floresta Aleatória 17

Etapas envolvidas no algoritmo Random Forest Etapa 1  – Primeiro, criamos subconjuntos dos nossos dados originais. Faremos amostragem de linhas e amostragem de recursos, ou seja, selecionaremos linhas e colunas com substituição e criaremos subconjuntos do conjunto de dados de treinamento. Etapa 2  – Criamos uma árvore de decisão individual para cada subconjunto que tomamos Etapa 3  – Cada árvore de decisão fornecerá uma saída Etapa 4  – O resultado final é considerado com base na votação majoritária se for um problema de classificação e na média se for um problema de regressão. 18

Vantagens e Desvantagens Vantagens Alta precisão e estabilidade . Reduz overfitting devido à aleatoriedade dos dados e atributos . Funciona bem mesmo com dados grandes e complexos. Pode lidar com variáveis categóricas e numéricas. Desvantagens Mais lento para treinar e prever que uma única árvore. Difícil de interpretar (menos explicável que uma árvore simples). Pode exigir bastante memória. 19

20

Definition O algoritmo K-Means é uma técnica de  aprendizado não supervisionado  usada principalmente em problemas de clusterização quando dados rotulados não estão disponíveis. Seu objetivo é dividir um conjunto de dados em grupos (ou clusters), de forma que os dados dentro de cada grupo sejam mais semelhantes entre si do que em relação aos dados de outros grupos. 21 o “K” no nome refere-se ao número de clusters que se deseja identificar. Inicialmente, o K-Means seleciona aleatoriamente K centros, chamados de centroides, e depois ajusta esses centroides repetidamente até encontrar a melhor separação entre os dados

Funcionamento 1.Definir o Número de Clusters (K): Primeiramente, é necessário decidir quantos grupos você deseja criar. Vamos supor que você queira identificar três perfis de clientes. Logo, K = 3. 2.icializar os Centroides: escolher pontos iniciais que representarão os centros dos clusters, chamados de “centroides”. Esses pontos são escolhidos aleatoriamente no início. 3.Atribuir Cada Ponto ao Cluster Mais Próximo: Cada cliente é então associado ao centro mais próximo, com base em alguma métrica de distância, geralmente a distância euclidiana. Desta forma, cada cliente passa a pertencer temporariamente a um dos três grupos. 4.Recalcular os Centroides: Após a atribuição inicial, o centro de cada cluster é recalculado com base na média dos pontos atribuídos a ele. Isso é como mudar a localização do ponto central para melhor representar o grupo. 5.Iterar até a Convergência: As etapas 3 e 4 se repetem, atribuindo novamente os pontos ao cluster mais próximo e recalculando os centroides, até que a posição dos centroides não mude mais ou até que uma condição de parada seja atingida. Esse processo é chamado de convergência. 22

cont 23

Vantagens e Desvantagens Vantagens Entre as vantagens do K-Means está sua simplicidade e eficiência em termos computacionais. Ele é particularmente eficaz para grandes conjuntos de dados e pode ser relativamente rápido em comparação com outros algoritmos de clustering. Desvantagens K-Means é sensível à escolha inicial dos centroides e pode convergir para soluções locais que não são ótimas. Além disso, ele não lida bem com clusters de formatos não esferoidais ou quando há diferenças significativas nos tamanhos dos grupos. 24

Exemplo 25

Cont. 26

cont 27

28

29

Aplications Segmentacao de clientes:as empresas usam k-means para agrupar clients com base em comportamentos . Analise de imagens:O k-means e usado para compreensao de imagens , agrupando pixels de cores semelhantes , assim como na segmentacao de imagens . Analise de dados geospaciais : o K-means pode ajudar a identificar regioes geograficas com mesmas caracteristicas . 30

31

32

Regressão Logística A Regressão Logística é um algoritmo de aprendizado supervisionado utilizado para resolver problemas de classificação binária ou multiclasse, onde a variável de saída (dependente) é categórica, geralmente representada como 0 ou 1 (por exemplo, sim/não, falha/não-falha ). Apesar do nome "regressão", ela não é usada para prever valores contínuos, mas sim para estimar a probabilidade de uma amostra pertencer a uma determinada classe. 33

Como funciona A regressão logística parte de uma equação linear similar à da regressão linear : Em seguida, aplica-se a função sigmoide ao resultado: Essa função transforma qualquer número real em um valor entre 0 e 1, que pode ser interpretado como probabilidade . Se o valor for ≥ 0,5, a amostra é classificada como pertencente à classe 1 ; se for < 0,5, pertence à classe 0 (no caso binário). 34

35 Essa função transforma qualquer número real em um valor entre 0 e 1, que pode ser interpretado como probabilidade . Se o valor for ≥ 0,5, a amostra é classificada como pertencente à classe 1 ; se for < 0,5, pertence à classe 0 (no caso binário).

36

Arquitetura 37

Arquitetura Camada de entrada : recebe os dados de entrada (variáveis independentes). Camada linear : calcula uma combinação linear dos pesos e das entradas. Camada de ativação sigmoide (ou softmax, em multiclasse) : converte o resultado em probabilidade. Camada de decisão : compara a probabilidade com um limiar (geralmente 0,5) para classificar. 38

Para que serve Diagnóstico de falhas em máquinas (ex: prever se um equipamento vai falhar ou não) Classificação de qualidade de minério (ex: minério aproveitável ou estéril) Identificação de riscos (ex: risco ambiental alto ou baixo) Controle de processos (ex: se um processo está fora do padrão ou não) 39

Vantagens , Desvantagens e Limitações Vantagens Os coeficientes indicam como cada variável influencia a chance de pertencimento à classe. útil em decisões onde se quer medir o grau de confiança. Baixo custo computacional : ideal para bases de dados grandes. Desvantagens e Limitações Sensível à multicolinearidade (quando variáveis de entrada são muito correlacionadas). Requer normalização ou padronização dos dados para boa performance. Não lida bem com outliers , que podem distorcer os coeficientes. 40

41

KNN – K-Nearest Neighbors / Como funciona É um algoritmo de machine learning supervisionado geralmente usado para classificação, mas também pode ser usado para tarefas de regressão. Algoritmo supervisionado para classificação e regressão. Baseia-se na proximidade dos dados: prevê o valor de um ponto com base nos seus K vizinhos mais próximos. 42

Como escolher o K ideal 43 O método do cotovelo é uma técnica usada para escolher o melhor número de clusters para o agrupamento K-Means. A ideia básica é observar como a inércia (custo) muda à medida que aumentamos o número de clusters.

Como escolher o K ideal 44 Na figura acima, observa-se claramente que a distribuição de pontos forma 3 clusters. Agora, vamos ver como o método do cotovelo forma seu gráfico.

Métricas de Distância Distância Euclidiana: mais comum e usada como padrão no sklearn do Python usa para o K-vizinho mais próximo. É uma medida da distância em linha reta real entre dois pontos no espaço euclidiano. 45

Vantagens e Desvantagens 46

47

SVM – Support Vector Machine Algoritmo supervisionado usado para classificação. Busca o melhor hiperplano que separa as classes com a maior margem possível. 48 Hiperplano : Um limite de decisão que separa diferentes classes. ( ax + b = 0)

Como o SVM Funciona ? Calcula o hiperplano que maximiza a margem entre duas classes. Ignora outliers e busca a separação mais eficiente possível. Usa funções kernel para lidar com dados não linearmente separáveis. 49 Aqui, temos uma bola azul no limite da bola vermelha.

Como o SVM Funciona ? Calcula o hiperplano que maximiza a margem entre duas classes. Ignora outliers e busca a separação mais eficiente possível. Usa funções kernel para lidar com dados não linearmente separáveis. 50

Tipos de SVM 51 Com base na natureza do limite de decisão, as Máquinas de Vetores de Suporte (MVS) podem ser divididas em duas partes principais:

Implementação Usando scikit-learn em Python. Requer ajuste de parâmetros como: C (regularização), Tipo de kernel (linear, rbf, polynomial, etc.). 52

Implementação 53

Vantagens 54

Desvantagens 55

56

Árvore de Decisão (Decision Tree) Algoritmo supervisionado para classificação e regressão. Divide os dados com base em atributos, criando uma estrutura de nós e folhas. 57

Estrutura da Árvore 58

Como funciona 1. Seleciona o melhor atributo (usando entropia, Gini ou ganho de informação). 2. Divide os dados em subconjuntos. 3. Repete recursivamente até atingir critérios de parada (por exemplo, pureza total). 59

Exemplo 60

Exemplo 61

Quando usar ? 62

Medidas de Qualidade Entropia : mede a incerteza dos dados (quanto menor, melhor ). A entropia ajuda a escolher qual característica dividir em cada nó de decisão da árvore. O objetivo é reduzir a entropia a cada divisão para criar subconjuntos o mais puros possível. 63

Impureza de Gini : mede a chance de erro na classificação (valor ideal → próximo de 0 ). Os algoritmos de árvore de decisão visam minimizar a impureza de Gini em cada nó, selecionando a característica e o ponto de divisão que resultam na menor impureza. 64

Vantagens e Desvantagens Vantagens Fácil de interpretar (visual). Funciona com dados com valores ausentes. Suporta tanto classificação quanto regressão. Desvantagens Pode sofrer sobreajuste (overfitting). Menos eficaz com grandes variações nos dados. 65

66

Naive Bayes O algoritmo assume que os dados independentes são independentes de todos os outros recursos; por isso, ele recebe o nome de “ingênuo ”. Na prática, isso raramente é verdade (por causa da multicolinearidade), por isso o nome “ingênuo” (Naive ). O que é multicolinearidade ? Multicolinearidade em aprendizado de máquina é o conjunto de dados que possui  correlações entre suas características independentes  

Naive Bayes: Princípios Fundamentais e o Teorema de Bayes 68 O algoritmo Naive Bayes é um tipo de algoritmo que trabalha com o conceito de  probabilidade condicional e o teorema bayesiano  . Regra de Bayes   Probabilidade Condicional  

Tipos de Naive Bayes 69 A escolha do tipo de Naive Bayes depende da natureza dos dados de entrada.

Aplicações do Naive Bayes

Vantagens e Desvantagens Rápido no treinamento e na predição Funciona bem com poucos dados Ideal para dados categóricos Fácil de implementar Ignora Correlações : A sua suposição de independência ignora as correlações entre as características , o que pode ser uma vantagem em casos onde a multicolinearidade seria um problema para outros modelos . Assume independência total entre atributos Erro de frequência zero: categorias ausentes no treino recebem probabilidade zero Pode não funcionar bem com dados altamente correlacionados Menos Adequado para Regressão

Quando usar Naive Bayes ? O algoritmo Naive Bayes pode ser usado se não houver multicolinearidade nos recursos independentes e se as probabilidades dos recursos fornecerem alguma informação valiosa aos algoritmos . Este algoritmo também deve ser preferido para problemas de classificação de texto. Deve-se evitar o uso do algoritmo Naive Bayes quando os dados são inteiramente numéricos e há multicolinearidade no conjunto de dados. 72 Nb: O Classificador Naive Bayes assume que o conjunto de dados fornecido ao algoritmo é independente e que os recursos independentes são separados e não dependem de outros fatores, e é por isso que o algoritmo  Naive Bayes é chamado de Naive

Não Supervisionados 73

74

PCA – Análise de Componentes Principais PCA é uma técnica estatística que realiza redução de dimensionalidade, transformando variáveis correlacionadas em novos componentes independentes, preservando a maior quantidade possível de informação original . É amplamente usada para visualização, redução de ruído e melhoria de desempenho em modelos de aprendizado de máquina. 75

Etapas do PCA 76

Cálculo da matriz de covariância para identificar correlações 77 A matriz mostra como as variáveis se relacionam, indicando correlação positiva, negativa ou nula entre os pares de variáveis.

Interpretação dos resultados da PCA O gráfico com os dois primeiros componentes revela agrupamentos e padrões nos dados . Setas das variáveis mostram quais atributos mais influenciam cada componente . A quantidade de componentes escolhidos busca equilibrar a simplicidade da análise com a manutenção da informação essencial. 78

Interpretação dos resultados da PCA 79

Implementação em Python 80

Quando Usar o PCA? Quando há muitas variáveis correlacionadas ; Quando é difícil visualizar dados em alta dimensão ; Quando se deseja reduzir o tempo de processamento em modelos com muitos atributos. 81

Aprendizado por Reforço 82

83

Apriori O Apriori é um algoritmo de aprendizado não supervisionado, utilizado na mineração de dados para descobrir regras de associação entre itens . Essas regras permitem identificar padrões frequentes, conexões e dependências entre grupos de itens em grandes bases de dados transacionais. 84

Como Funciona 85

Como Funciona 86

Métricas Utilizadas 87 Suporte : Frequência com que um conjunto de itens aparece no banco de dados. Confiança : Probabilidade de ocorrência de B dado que A ocorreu. Elevação (Lift) : Mede o quanto a ocorrência conjunta de A e B é maior do que seria caso fossem independentes. Lift > 1 indica associação positiva.

Implementação em Python 88

Exemplo de uma mercearia 89

Fim da apresentação!
Tags