A coleta e a análise de grandes quantidades de dados têm se tornado tarefas essenciais em muitas empresas. Os data lakes se tornaram uma escolha popular para o armazenamento de todo tipo de dados, estruturados e não-estruturados, servindo como uma “fonte única da verdade”. Veja este webinar ...
A coleta e a análise de grandes quantidades de dados têm se tornado tarefas essenciais em muitas empresas. Os data lakes se tornaram uma escolha popular para o armazenamento de todo tipo de dados, estruturados e não-estruturados, servindo como uma “fonte única da verdade”. Veja este webinar para descobrir como você pode facilmente criar e gerenciar, de forma segura, um data lake utilizando serviços da AWS.
Size: 194.87 MB
Language: pt
Added: Jul 15, 2021
Slides: 33 pages
Slide Content
Pedro Rates – prrates AWS – Arquiteto de Soluções Construindo um Data Lake na nuvem AWS
A revolução dos dados
Tradicionalmente, o processo de tomada de decisões OLTP ERP CRM LOB Enterprise data warehouse Business intelligence … dependia de um data warehouse
Os dados não cabem mais IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017. Dados a cada 5 anos Há mais dados que as pessoas pensam 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01100010 01100010 01111001 00001101 00001010 0110111101100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 01100110 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 15 anos existir por Plataforma de dados: 1,000x crescimento >10x crescem Os dados são mais diversos
Há mais pessoas acessando os dados E maior necessidade de disponbilidade dos dados Data Scientists Analysts Business Users Applications Machine Learning SQL analytics Scientific Real-time, streaming Cargas de trabalho cada vez mais diversas
Maior pressão regulatória Democratização dos dados Governança e controle cumprir com as regulamentações e requisitos de governança ? Como democratizar o acesso aos dados e
Introdução ao Data Lake
Um data lake é um repositório centralizado que permite o armazenamento qualquer quantidade dados, estruturados e não estruturados
Por que utilizar data lakes ? Data Lakes proporciona : Dados relacionais e não relacionais Escala de Exabytes Conjunto diversos de ferramentas de Analytics e ML Trabalhar com os dados sem precisar movê -los Projetado para armazenamento e analytics de baixo custo OLTP ERP CRM LOB Data Warehouse Business Intelligence Data Lake 100110000100101011100101010111001010100001011111011010 0011110010110010110 0100011000010 Devices Web Sensors Social Catalog Machine Learning DW Queries Big data processing Interactive Real-time
Amazon S3 | AWS Glue Qualquer carga de trabalho de analytics , de qualquer tamanho , no menor custo possível AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams On-premises Data Movement Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch Service Amazon Kinesis Amazon QuickSight Analytics Machine Learning Real-time Data Movement Data Lake
Há mais data lakes e analytics na AWS que em qualquer outro lugar
Desafios na construção de um Data Lake
Construir data lakes limpos e seguros pode levar meses
A preparação dos dados representa ~80% do trabalho Desenvolvimento de conjuntos de treinamento Limpeza e organização dos dados Coletar conjuntos de dados Mineração dos dados para obter padrões Refinamento de algoritmos Outros
Etapas necessárias para construir um data lake Setup storage 1 Move data 2 Cleanse, prep, and catalog data 3 Configure and enforce security and compliance policies 4 Make data available for analytics 5 Implementar a arquitetura de um Data Lake requer um amplo conjunto de ferramentas e tecnologias para atender aplicações e casos de uso cada vez mais diversos .
Exemplos de etapas na AWS Find sources Create Amazon Simple Storage Service (Amazon S3) locations Configure access policies Map tables to Amazon S3 locations Create metadata access policies Configure access from Analytics end services Repetir para outros: data sets, usuários , e aplicações And more: gerenciar e monitorar os jobs de ETL atualizar catálogo de metadados atualizar as políticas de acesso de usuário e aplicações manutenção dos scripts de limpeza dos dados criação de processos de auditoria para aderência ao compliance … Manual | Falha Humana | Consome tempo ETL Jobs to clean and prepare data
Serviço totalmente gerenciado que permite que Analistas de dados construam data lakes limpos e seguros em dias AWS Lake Formation Cientistas de dados Engenheiros de dados
S3 Lake Formation & AWS Glue Snowball Kinesis Data Streams Snowmobile Kinesis Data Firehose Amazon Redshift Amazon EMR Athena Kinesis Amazon ES Infraestrutura de data lake robusta com a AWS Amazon SageMaker Comprehend Amazon Rekognition Durável e disponível ; escala de exabytes Seguro, auditável e dentro do compliance Controle a nível de objeto para acesso granular Alta performance ao trazer apenas subconjuntos dos dados Desacoplamento de processamento e armazenamento Recursos on-demand, categorias e opções de custo
AWS Lake Formation Solution Stack Amazon S3 Data Lake Storage Armazenamento durável , com capacidade de replicação global, e com alto custo-benefício Processo de ingestão e limpeza dos dados permite aos engenheiros de dados desenvolver com mais agilidade Gerenciamento centralizado de permissões granulares ampliam a capacidade do time de segurança Ferramentas de descoberta , compartilhamento , e integração disponíveis para todos os usuários Amazon Athena Amazon QuickSight Amazon Redshift AWS Glue Amazon EMR Lake Formation AWS Glue Blueprints ML Transforms Data Catalog Access Control AWS SageMaker
Projetado para 11 9s de durabilidade Projetado para 99.99 % de disponibilidade Durável Disponível Alto desempenho Upload por partes GET por partes Armazene quanto for necessário Aumente armazenamento e processamento independemente Sem necessidade de uso mínimo Escalável Amazon EMR Amazon Redshift Amazon DynamoDB Amazon SageMaker Muitos mais Integrado REST API simples AWS SDKs Consistência read-after-create Notificações de eventos Políticas de ciclo de vida Fácil de usar Por que usar o Amazon S3 para o Data Lake?
Como funciona
Registre dados já existentes ou importe conteúdo novo Amazon S3 forma a camada de armazenamento do Lake Formation Registre buckets do S3 existentes contendo seus dados Configure o Lake Formation para criar os buckets do S3 necessários e importar os dados para dentro deles Os dados são armazenados na sua conta . Você tem acesso direto à eles . Não há lock-in. Data Lake Storage Data Catalog Access Control Data import Lake Formation Crawlers ML-based data prep
Carregue dados no seu data lake facilmente logs DBs Blueprints Data Lake Storage Data Catalog Access Control Data import Lake Formation Crawlers ML-based data prep Uma vez incremental
Com os blueprints Você Configure a fonte de dados Configure o local para o qual carregar os dados no data lake Especifique o quão frequentemente você deseja carregar dados Blueprints Descobre o schema das tabelas Converte automaticamente para o formato do destino Particiona os dados automaticamente conforme o particionamento do schema Mantém o registro dos dados já processados Todas as opções acima são customizáveis
Blueprints build on AWS Glue Blueprints AWS Glue Jobs Workflow AWS Glue Crawlers AWS Glue Data Catalog Connections, Databases, Tables Monitoring
Orquestra os triggers, crawlers & jobs Cria e monitora fluxos inteiros Sistema de alertas integrado AWS Glue fornece componentes serverless escaláveis Data Catalog Serverless ETL Compatível com Apache Hive Metastore Integrado com os serviços de analytics AWS Crawlers Flexible Workflows Infere automaticamente os schemas Popula o data catalog Desenvolvimento interativo Apache Spark / Python shell jobs Execução serverless
Blueprints criam workflows do AWS Glue
Permissões de segurança no AWS Lake Formation Controle o acesso aos dados simplesmente concedendo ou revogando permissões Especifique permissiões em DBs , tabelas , e colunas ao invés de objetos ou buckets Visualize facilmente as permissões concedidas à um usuário específico Audite todo o acesso aos dados em um só lugar User 1 User 2
Modelo de segurança do AWS Lake Formation
AWS Lake Formation Security – request flow AWS Lake Formation manages access to registered locations No intermediary in data path Redshift Spectrum Glue EMR Athena User Query T Request access for T Short-term creds for T Amazon S3 Request objs comprising T Return objs of T AWS Lake Formation 1 2 3 4 5 Integrated services Principals can be IAM users, roles, and users via federation e.g., Active Directory
Search and collaborate across multiple users Text-based, faceted search across all metadata Add attributes like Data owners, stewards, and other as table properties Add data sensitivity level, column definitions, and others as column properties Text-based search and filtering Query data in Amazon Athena
Auditoria e monitoração em tempo real Veja informações completas dos eventos no console Download dos logs para análises mais detalhadas Eventos podem ser integrados a outros serviços , como o CloudWatch