Introducción a Microsoft Azure SQL Data Warehouse

redondoj 3,038 views 80 slides Aug 21, 2015
Slide 1
Slide 1 of 80
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75
Slide 76
76
Slide 77
77
Slide 78
78
Slide 79
79
Slide 80
80

About This Presentation

El nuevo Microsoft Azure SQL Data Warehouse (SQL DW) es un versátil servicio de almacén de datos que provee una solución Massively Parallel Processing (MPP) para "Big data" con verdaderas características de alta infraestructura empresarial. El servicio SQL DW está construido para la c...


Slide Content

José Redondo Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ [email protected] | @redondoj | redondoj.wordpress.com Introducción a Microsoft Azure SQL Data Warehouse

Expositor CEO de EntornoDB, USA Arquitecto de Datos – Especialista en Inteligencia de Negocio , Análisis de Datos y Big Data Desarrollador de aplicaciones de Escritorio, Web y Bases de Datos en .NET y Java Desarrollador y DBA en plataformas de datos Microsoft, SyBase, IBM y Oracle Conferencista en eventos tecnológicos de Microsoft y PASS en Latinoamérica y Estados Unidos SQL Server MCP - MSTS – MTA DPA SolidQ Contributing Technical Reviewer Packt Publishing Microsoft SQL Server MVP

Introducción a Microsoft Azure SQL Data Warehouse

Análisis: La Tradicional "Bodega de datos" y La Moderna "Bodega de datos" Arquitectura: Microsoft APS (Analytics Platform System) Hadoop & PolyBase Performance y Escalabilidad Beneficios Resumen Preguntas y Respuestas Agenda

Análisis: La Tradicional "Bodega de datos“ y La Moderna "Bodega de datos"

Microsoft & Bodega de Datos Parallel Data Warehouse v1 Data Allegro en Windows y SQL. Primera aplicación de DW por MSFT en colaboración con Dell y HP Microsoft Adquiere Data Allegro Empresas han consultado la forma mas eficiente de llevar MPP (Massively Parallel Processing) al entorno de SQL Server Lanzamiento de Fast Track Data Warehouse Arquitectura de referencia DW basadas en las mejores prácticas SMP DW (Symmetric Multi-Processing Data Warehousing) ofrecidas con los principales socios de H/W 2008 2010 2011

Microsoft & Bodega de Datos Azure SQL Data Warehouse Service Introducción del servicio de Azure SQL Data Warehouse basado en las capacidades MPP (Massively Parallel Processing) de APS (Analytics Platform System) Parallel Data Warehouse v2 Producto rediseñado ofreciendo nuevos factores de forma y una mejor relación Precio/Rendimiento. Analytics Platform System (APS ) Introducción de Hadoop a la región dentro de la aplicación y nuevo nombramiento para reflejar las más amplias capacidades de Big Data 2013 2014 2015

APS y SQL DW: Estrategia Hibrida DATA WAREHOUSE (Ahora) APS AU4 (On-Premises) DW Service (Cloud) DATA WAREHOUSE (Antes) APS (On-Premises)

APS y SQL DW: Estrategia Hibrida Continuar liderando e innovando en el escenario DW Roadmap DW Lo que se puede hacer con APS, se puede hacer con el servicio de DW; y viceversa en el futuro Acuerdo Híbrido Alternativa (On-Premises o Cloud) Mejor juntos (On-Premises y Cloud) 1 2 3

La Tradicional Bodega de Datos Orígenes de Datos OLTP ERP CRM LOB Incrementando el volumen de datos 1 Datos No R elacionales Devices Web Sensors Social Nuevos orígenes y tipos de datos 2

La tradicional Bodega de Datos Datos originados desde la nube 3

La tradicional Bodega de Datos ETL Data warehouse BI y Analytics Dashboards Reporting Consumidores de datos 4 4

El Moderno Almacén de Datos INFRAESTRUCTURA GESTIÓN Y PROCESAMIENTO DE DATOS CONSULTAS FEDERADAS Y ENRIQUECIMIENTO DE DATOS BI Y ANALYTICS Self-service Colaboración Empresarial Predictivo Mobile Extraer, Transformar & Cargar Modelo de Consultas Sencillas Calidad de Datos Master Data M anagement No Relacional Relacional Analítico Streaming Interno & Externo  Orígenes de Datos OLTP ERP CRM LOB Datos No R elacionales Devices Web Sensors Social

Paralelismo

Arquitectura: Microsoft APS ( Analytics Platform System)

Arquitectura lógica Nodo “Control” SQL DMS Nodo “Control” – La “Razón de Ser” de SQL Data Warehouse También funciona con Azure SQL Server DB Mantiene una copia del "Interprete de comando o Shell" de cada base de datos Metadatos, Estadísticas, etc. El "Rostro Público" de la Aplicación

Arquitectura lógica Nodo “ Compute” Almacenamiento Balanceado SQL DMS Nodo “Compute” Almacenamiento Balanceado SQL DMS Nodo “Compute” Almacenamiento Balanceado SQL DMS Nodo “Compute” Almacenamiento Balanceado SQL DMS Nodo de Computo - La "Abeja Obrera" de SQL Data Warehouse Ejecuta Azure SQL Server DB Contiene una “Parte o Slice" de cada base de datos CPU está saturado por el almacenamiento

Arquitectura lógica Data Movement Services (DMS) Parte del "Condimento secreto" de SQL Data Warehouse Mueve los datos alrededor de su contexto según sea necesario Permite operaciones paralelas entre los nodos de cómputo (Consultas, cargas, etc.) Nodo “Compute” Almacenamiento Balanceado SQL Nodo “Compute” Almacenamiento Balanceado SQL Nodo “Compute” Almacenamiento Balanceado SQL DMS Nodo “Compute” Almacenamiento Balanceado SQL DMS DMS DMS

Arquitectura lógica Nodo “Compute” Almacenamiento Balanceado SQL Nodo “Control” SQL Nodo “Compute” Almacenamiento Balanceado SQL Nodo “Compute” Almacenamiento Balanceado SQL Nodo “Compute” Almacenamiento Balanceado SQL DMS DMS DMS DMS DMS

Opciones de la capa de datos Nodo “Compute” Almacenamiento Balanceado SQL Almacenamiento Balanceado Nodo “Compute” SQL Nodo “Compute” SQL Nodo “Compute” SQL DMS DMS DMS DMS Time Dim Date Dim ID Calendar Year Calendar Qtr Calendar Mo Calendar Day Store Dim Store Dim ID Store Name Store Mgr Store Size Product Dim Prod Dim ID Prod Category Prod Sub Cat Prod Desc Customer Dim Cust Dim ID Cust Name Cust Addr Cust Phone Cust Email Sales Fact Date Dim ID Store Dim ID Prod Dim ID Cust Dim ID Qty Sold Dollars Sold TD PD SD CD TD SD TD PD SD CD TD SD Sales Fact Replicado Tabla copiada a cada "Nodo Compute" Distribuido Publicación de la Tabla a través de los nodos de cómputo basado en el "Hash" Esquema Estrella Almacenamiento Balanceado Almacenamiento Balanceado PD CD PD CD

Distribución de los datos FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H FactSales_A FactSales_B FactSales_C FactSales_D FactSales_E FactSales_F FactSales_G FactSales_H Nodo Control … Nodo Compute 1 Nodo Compute 2 Nodo Compute X Envia Create Table SQL a cada “Nodo Compute” Create Table FactSales_A Create Table FactSales_B Create Table FactSales_C …… Create Table FactSales_H FactSalesA FactSalesB FactSalesC FactSalesD FactSalesE FactSalesF FactSalesG FactSalesH FactSalesA FactSalesB FactSalesC FactSalesD FactSalesE FactSalesF FactSalesG FactSalesH FactSalesA FactSale s B FactSalesC FactSalesD FactSalesE FactSalesF FactSalesG FactSalesH La metadata del Create Table en el Nodo Control CREATE TABLE FactSales ( ProductKey INT NOT NULL , OrderDateKey INT NOT NULL , DueDateKey INT NOT NULL , ShipDateKey INT NOT NULL , ResellerKey INT NOT NULL , EmployeeKey INT NOT NULL , PromotionKey INT NOT NULL , CurrencyKey INT NOT NULL , SalesTerritoryKey INT NOT NULL , SalesOrderNumber VARCHAR(20) NOT NULL, ) WITH ( DISTRIBUTION = HASH(ProductKey), CLUSTERED INDEX(OrderDateKey) , PARTITION (OrderDateKey RANGE RIGHT FOR VALUES ( 19950601 , 19950901 , ) ) );

APS Balanceo equilibrado de carga entre servidores Tablas mas grandes 600,000,000,000 Distribuidos aleatoriamente entre 40 nodos de cómputo (5 racks) 15,000,000,000 En cada servidor aleatoriamente distribuido en 8 tablas (Por consiguiente hasta 320 tablas en total) 1,875,000,000 Cada partición = 2 años de datos particionados por semana (Beneficiando todas las consultas por fecha) 18,028,846

APS Balanceo equilibrado de carga entre servidores Como un usuario final o un DBA que piensa en 1 tabla. Ejemplo: LineItem. “SELECT * FROM LineItem” está dividido en 320 consultas en paralelo contra 320 (1.875 billones de registros) tablas. “SELECT * FROM LineItem WHERE OrderDate = ‘1/1/2012’" son 320 consultas en 320 (18 millones de registros) tablas. Es totalmente irrelevante el saber que en realidad existan 320 tablas que representan 1 tabla lógica. CCI (Clustered Columnstore Index) puede agregar mayor rendimiento mediante la eliminación del segmento.

Introduciendo el Servicio Azure SQL DW Un almacén de datos relacionales "as-a-service", totalmente gestionado por Microsoft. La primera empresa con servicios flexible de almacenamiento de datos en la nube con capacidades de nivel empresarial. Soporte a su más pequeñas necesidades de almacenamiento de datos más grandes durante la gestión de consultas hasta 100 veces más rápido.

Introduciendo el Servicio Azure SQL DW Líder del mercado en precio y rendimiento Simple cálculo de facturación y almacenamiento Pagar por lo que se necesita, cuando usted lo necesite con pausas dinámica Traer su DW a la nube sin tener que reescribir Escalabilidad y Rendimiento Flexible Escala hasta Petabytes de datos Procesamiento masivamente paralelo Escalamiento al instante de computación en segundos Consultas Relacionales / No-Relacionales Comience en minutos Integrado con Azure ML (Machine Learning), PowerBI y ADF (Application Development Framework) Preparado para las empresas de hoy Desarrollado por la Nube

Desplegar rápidamente y obtener una visión Abastecer Cargar Consultar Un cluster SQL DW en minutos Ship Disks Azure Storage HDInsight Herramientas de migración Todos los Tipos de Datos Analíticos con Power BI + ML Automatizar el flujo de trabajo via Azure Data Factory

Flexibilidad en tiempo real Produzca alternativas de grandes cargas de trabajo, generando períodos bajos de actividad diaria. Obtenga tiempo de visualizar requerimientos basado en lo que usted necesita, cuando usted lo necesita. Elija el combo de cálculo y almacenamiento de información que satisfaga sus necesidades.

Flexibilidad en tiempo real Cambie el Tamaño en menos de un Minuto Computación Bajo Demanda De Cualquier T amaño a Cualquier T amaño

Cuando está en Pausa, Pague sólo por Almacenamiento Utilícelo sólo cuando lo necesite, sin recargar o restaurar datos Ahorre costos con paradas dinámicas y reinicios inmediatos Cuando está en pausa, el almacenamiento en la nube a gran escala es de costo mínimo. Basado en políticas (Es decir, noches y fines de semana) Automatice mediante PowerShell & REST API Los datos permanecen en su lugar

SQL DW: Desarrollado sobre SQL DB Foundation Flexible Escalabilidad a Petabytes Optimizado para DW 99.99% de tiempo de actividad SLA* Geo-Restauración Cumplimiento de normas en Azure (ISO, HIPAA, EU, etc.) Verdadera Experiencia SQL Server Magnificas herramientas de trabajo SQL DW SQL DB Niveles de servicio * Service Level Agreement - Acuerdo de nivel de servicio

Unidad de Almacenamiento de Datos (DWU) Basta con adquirir el rendimiento que se necesitan en las consultas, no solo de hardware Cuantificados mediante objetivos de volumen de trabajo: cómo rápidamente las filas de registros son escaneadas, cargadas, copiadas, etc. Medidas de Poder Transparencia Primer servicio de DW para ofrecer potencia de cálculo bajo demanda, independientemente de almacenamiento a requerir. Bajo Demanda

Unidad de Almacenamiento de Datos (DWU) Escaneo de 1 Billón de registros * 100 DWU = 297 seg 400 DWU = 74 seg 800 DWU = 37 seg 1,600 DWU = 19 seg * Estimaciones preliminares. Los resultados reales pueden variar Velocidad de Lectura 3.36M reg/seg Tasa de Carga 130K reg/seg Table Copy Rate 350K reg/seg 100 DWU *

Hadoop & PolyBase

Qué es Hadoop? 34 Core Services OPERATIONAL SERVICES DATA SERVICES HDFS SQOOP FLUME NFS LOAD & EXTRACT WebHDFS OOZIE AMBARI YARN MAP REDUCE HIVE & HCATALOG PIG HBASE FALCON Hadoop Cluster compute & storage . . . . . . . . compute & storage . . Hadoop Clusters proporcionan almacenamiento de escalabilidad horizontal y procesamiento de datos distribuido en el hardware en cada uno de los servicios básicos . . .

Qué es Hadoop? Distribuido, Sistema Escalable en componentes de Hardware Compuesto de unas pocas partes: HDFS – Sistema Distribuido de Archivos MapReduce – Modelo de Programación Otras herramientas: Hive, Pig, SQOOP, HCatalog, HBase, Flume, Mahout, YARN, Tez, Spark, Stinger, Oozie, ZooKeeper, Flume, Storm

Qué es Hadoop? Los principales actores son Hortonworks, Cloudera, MapR ADVERTENCIA: Hadoop es ideal para el procesamiento de grandes volúmenes de datos PERO es insuficiente para el análisis de los datos en tiempo real (Las empresas hacen análisis de lotes en su lugar)

Consulta de datos no estructurados mediante Polybase/T-SQL Instancia SQL DW Escalabilidad de computo Hadoop VMs / Azure Storage PolyBase

Consulta de datos no estructurados mediante Polybase/T-SQL Permite capacidades de consultar a través de distribuciones de Hadoop comunes (HDP y Cloudera) y formatos de archivo de Hadoop en Azure Storage. Permite el aprovechamiento de las habilidades de SQL existentes y herramientas de BI Soporta múltiples formatos de archivo no relacionales Mejora el ciclo de conocimiento y conceptualización de ideas y generación de ETL simplificado Polybase para consultar y administrar datos no relacionales de Hadoop y datos relacionales

Consultar datos Hadoop con T-SQL utilizando PolyBase Reunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos en conjunto para los usuarios finales e IT Select… Result set SQL DW Cloudera CHD Linux 4.6 Hortonworks HDP 2.1 (Windows, Linux) Windows Azure HDInsight (HDP 2.1) (HDFS) PolyBase SQL DW Otros (SQL Server, DB2, Oracle)? Verdaderos motores de consultas federadas Windows Azure Storage-Blob (WASB)

Consultar datos Hadoop con T-SQL utilizando PolyBase Reunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos en conjunto para los usuarios finales e IT Consultas Relacionales + No Relacionales Proporciona un modelo único de consulta T-SQL ("Capa semántica") para APS y Hadoop con ricas características de T-SQL, incluyendo uniones sin ETL Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas Compatible con Windows Azure HDInsight para habilitar nuevos escenarios de nube híbrida Proporciona la capacidad de consulta de las distribuciones de Hadoop no Microsoft, como Hortonworks y Cloudera Usar habilidades SQL existente, sin intervención de personal IT

Use cases where PolyBase simplifies using Hadoop data Bringing islands of Hadoop data together High performance queries against Hadoop data (Predicate pushdown) Archiving data warehouse data to Hadoop (move) (Hadoop as cold storage)

Los casos de uso donde PolyBase simplifica los datos utilizando Hadoop Recopilar todos los escollos de datos Hadoop Exportación datos relacionales a Hadoop (Copia) (Hadoop como Copia de seguridad, Análisis, Uso On-Premise) Importación de datos Hadoop dentro del data warehouse (Copia) (Hadoop como área Staging, Sandbox, Data Lake)

Comprendiendo Big Data para cualquier persona Integración nativa de Microsoft BI para crear nuevos competencias con herramientas conocidas Herramientas como Power BI reduce al mínimo la intervención para descubrir datos T-SQL para DBA y Usuarios para unirse a datos relacionales y Hadoop Herramientas Hadoop como Map-Reduce, Hive y Pig para Data Scientists Aprovecha alta adopción de Excel, Power View, Power Pivot y SSSA

Usuarios Finales Data Scientist Todo el mundo utilizando herramientas de Microsoft BI Comprendiendo Big Data para cualquier persona Integración nativa de Microsoft BI para crear nuevos competencias con herramientas conocidas

Escalando datos relacionales hasta Petabytes Tecnologías de escalabilidad en SQL Data Warehouse Procesamiento Paralelo Masivo (MPP) paraleliza las consultas ( No basada en la capacidad impulsada por velocidad ) Múltiples nodos con CPU dedicada, memoria, almacenamiento " No compartido " Añade incrementalmente Hardware para la escala casi lineal al multi-PB ( No es necesario eliminar los datos más antiguos entre otros ) Maneja escalablemente la complejidad de las consultas y las concurrencia a las mismas

No "Forklift" del almacén antes de aumentar la capacidad Comenzar con unos almacenes de tamaño de Terabyte Soporte mixto para la carga de trabajo: Consulta mientras se carga (250GB/hora por nodo). No hay necesidad de activar una ventana de mantenimiento Escalando datos relacionales hasta Petabytes Tecnologías de escalabilidad en SQL Data Warehouse

Performance y Escalabilidad

Rápido y efectivo rendimiento MPP y In-Memory Columnstore para un rendimiento de próxima generación Representación del índice de Columnstore C1 C3 C5 C4 C2 C6 Ejecución de consultas en paralelo Query Resultados

Rápido y efectivo rendim iento MPP y In-Memory Columnstore para un rendimiento de próxima generación Almacenar datos en formato de columnas para la compresión masiva Cargar datos dentro o fuera de la memoria para un rendimiento de próxima generación Actualizable y agrupado para carga lenta en tiempo real No hay índices secundarios requeridos Consultas más rápidas de hasta 100x Columnstore agrupados actualizable vs. Tablas con indexación habitual Hasta compresión de mas de 15x

Resultados de los Servicios de Negocios de la Empresa antes y después SMP vs. APS 54x d e mejora cargando datos (48 horas vs. 53 minutos) 25x, 193x, de mejora en la ejecución de las consultas (4 días y 6 horas vs. 32 minutos)

1.4 TB/ hr tiempo de carga (7 billones de registros) (1.21TB en 53:20) Con las misma herramientas de trabaja de Microsoft BI conocidas Resultados de los Servicios de Negocios de la Empresa antes y después SMP vs. APS

Las DWU serán de doble rendimiento 9.4x compresión (7 billones de registros) (De 1.7TB a 179GB) Resultados de los Servicios de Negocios de la Empresa antes y después SMP vs. APS

Visión y Arquitectura general del flujo de datos Stream Analytics Transformación Capturar Web logs Presentación & Toma de decisiones IoT, Dispositivos móviles, etc. Social Data Event Hubs HDInsight Azure Data Factory Azure SQL DB Azure Blob Storage Azure Machine Learning (Detección de Fraude, etc.) Power BI Web dashboards Dispositivos móviles DW / Almacenamiento a Largo Plazo Análisis Predictivo Eventos & Producción de datos Azure SQL DW

Llevar fácilmente tu DW a la nube Migración transparente de una variedad de orígenes On-Premise y Cloud Carga rápida, coherente y estable para la migración Herramientas de migración integradas con soporte para todos las cargas de trabajo

Importar / Exportar Acelerador de migración ExpressRoute Enviar grandes volúmenes de datos en medios físicos. Hacer la migración a Azure, simple y completamente administrado. Traslado con conexiones privadas, aceleradas a Azure. Llevar fácilmente tu DW a la nube

Migración SQL Data Warehouse Services - Detalles Acelerador de Migración Importar/Exportar ExpressRoute/Herramientas de Carga

Opciones de Carga de Datos Gestor DWS Sorprendentemente rápido cargador personalizado para APS/DWS BulkLoad API Cargas sin caidas desde y hacia Archivos/SQL SMP (Symmetric Multi-Processing) SSIS Paridad con habilidades en las instalaciones de potente suite de carga PolyBase Movimiento de datos avanzados y profunda integración con Hadoop Attunity Replica datos desde la 1/3 parte del almacenamiento de la información en todo el mundo Informatica Migrar paquetes avanzados de Informatica directamente a Azure 010010101110101011101010100101011101010010111010010100101111101010010110101110100101101001001011010100101011101010111010101001010111010100101110100101001011111010100101101011101001011010101001 010010101110101011101010100101011101010010111010010100101111101010010110101110100101101001001011010100101011101010111010101001010111010100101110100101001011111010100101101011101001011010101001 Gran ecosistema de potentes herramientas ETL Cargar directamente de una variedad de fuentes de orígenes Cargas de forma transparente paralelizados Estabilidad y consistencia garantizada

Ecosistema de socios muy bien extensible de SQL Server + Establecido con Azure ML, HDInsight, PowerBI, ADF, y mas. + El Ecosistema más amplio de la industria de los socios de Data Warehouse , incluyendo Tableau, Informatica, Attunity, y SAP. Azure ML Azure Event Hub Azure Stream Analytics Azure HDInsight Power BI Microsoft

Ecosistema de socios muy bien extensible de SQL Server Despliegue optimizado con el Portal de Azure. Integración profunda con las herramientas de los principales socios incluyendo: Configuración con un solo clic Movimiento de datos optimizado Pushdown lógico Azure SQL DW

Líder en el mercado Precio/Rendimiento La mejor oferta del mercado Precio/Rendimiento Ventajas en elasticidad y pausa para reducir costos al cliente Iniciando con pequeño SQL DW, pudiendo crecer a PB rápidamente sin inconveniente alguno Pagar por el rendimiento mediante la ampliación de cómputo contra el almacenamiento 100GB 1TB 2TB Azure SQL DW Amazon Redshift 1+PB Alto Performance SQL DW Alta Capacidad SQL DW Balanceo de carga SQL DW Performance Redshift Dense Compute Redshift Dense Storage

Beneficios

Diferencias de SQL DW y Amazon Redshift? Horas a días para cambiar el tamaño; sólo lectura con degradación de performance Elasticidad Verdadero y real crecimiento, compactación de objetos de datos y pausar con mínimo tiempo de inactividad . Amazon Redshift Azure SQL DW No Pausa/ Reanudar Si! Relación de cálculo y almacenamiento fijo Simplicidad Pagar por el rendimiento que se necesite con computación escalable de forma independiente y almacenamiento Híbrido No. AWS solamente. Si. Azure y On-Premises. No hay soporte para Índices, Procedimientos Almacenados, SQL UDF, Particionamiento, Restricciones Compatibilidad Real soporte a SQL.

Analítica Avanzada definida

Ejemplo de Análisis Descriptivo : ¿Cuántos de nuestros clientes persisten en el último mes? ¿Cuántos de estos clientes son rentable? Diagnostico : Por qué dejaron estos clientes el ser rentables? ? Predictivo : Cuántos clientes rentables son propensos a dejar el mes que viene ? Prescriptivo : Cómo podemos reducir esta tasa de rotación de clientes rentables ?

Copia de seguridad automática y Geo-Restore Recuperarse de eliminación de datos o la alteración o desastre Geo-Replicado Restauración desde las copias de seguridad SQL Data Warehouse Backups sabcp01bl21 Azure Storage sabcp01bl21

Copias de seguridad automática cada 4 horas, en el Azure Storage ("Recuperación de desastres") y Geo-Replicado ("alta disponibilidad") Copias de seguridad On-Demand en Azure Storage donde el usuario final puede habilitar la Geo-Replicación REST API, PowerShell o El Portal de Azure Exportaciones programadas para la retención a largo plazo Copia de seguridad automática y Geo-Restore Recuperarse de eliminación de datos o la alteración o desastre

Copia de Seguridad y Restauración en línea basado en copias instantáneas de almacenamiento Política de retención de Copias de Seguridad: Copia de Seguridad automáticas hasta 35 días Copias de seguridad bajo demanda retenidas indefinidamente Copia de seguridad automática y Geo-Restore Recuperarse de eliminación de datos o la alteración o desastre

Resumen

Menos mantenimiento y monitoreo del DBA No hay creación de índice No hay datos eliminados o archivados para ahorrar espacio Simplicidad de gestión (System Center, Consola de Administración, DMVs) Sin bloqueo Sin registros de transacciones Sin sugerencias de consulta Sin estados de espera Sin tuning de IO

Menos mantenimiento y monitoreo del DBA No hay optimización de consulta / Tuning No hay índice para reorganizarlos / reconstruirlos No particiones No hay grupos de archivos que gestionan No hay bases de datos para contraer o expandir No hay gestión de servidores físicos No hay servidores y software de parchado RESULTADO : DBA invierten más de su tiempo como arquitectos y no perdedera de tiempo en tonterías !

Mejor juntos – SQL DW con APS SQL Server Parallel Data Warehouse Microsoft HDInsight (Hadoop) PolyBase Azure ML Azure Event Hub Azure Stream Analytics Azure HDInsight Power BI Microsoft SQL DW Service Analytics Platform System

Mejor juntos – SQL DW con APS Utilizar el servicio de SQL DW o APS como su solución de recuperación ante desastres con carga Dual Recuperación de Desastres Los Datos Históricos al Servicio de SQL DW pero manteniendo completo el poder de MPP en ejecución Datos Históricos Restricciones y políticas de las Empresas Pruebas / Desarrollo o Producción Almacenar datos en APS que la política de la empresa prohíbe estar en la nube Poner a prueba nuevas ideas en el servicio de SQL DW antes de salir a producción en APS

Lo que esta por venir… Preview Publica GA Verano 2015 Preview Publica Pausada y Reanudada Dinámica Integración con la Plataforma de Servicio de Azure (CloudML, ADF, HDInsight, SQL-IP) Integración con todo el ecosistema de los Partners de SQL Server Geo-Restauración Servicio o Aplicación híbrida PolyBase para la integración a Big Data T-SQL preparado para las empresas Primera ola de socio certificados en SQL A finales 2015/ A comienzo 2016 Acuerdo a esperar Certificado ISO, PCI Clausula de Modelo HIPAA, BAA, & EU Acuerdo de Nivel de Servicio 99.99% SLA

Demo SQL Data Warehouse

Preguntas y Respuestas

Preguntas & Respuestas

Recursos SQL Data Warehouse PREVIEW - http://bit.ly/1EFEkLz Partners for Azure SQL Data Warehouse - http://bit.ly/1EkhcCp TechEd Europe - http://bit.ly/1EFEyT4

José Redondo Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ [email protected] | @redondoj | redondoj.wordpress.com

CloudFirst Campus Latinoamérica www.facebook.com/cloudfirstcampus