Data Discoverability with DataHub

GlebMezhanskiy 173 views 11 slides Nov 26, 2020

Slide 1 of 11

About This Presentation

Presented on Data Quality Meetup by Maggie Hays, Senior Product Manager, Data Services @ SpotHero

Learn more about Data Quality Meetup
https://www.datafold.com/blog/data-quality-meetup-2

Size: 651 KB

Language: en

Added: Nov 26, 2020

Slides: 11 pages

Slide Content

Data Discoverability with DataHub
Maggie Hays
Senior Product Manager -- Data Services
Data Quality Meetup -- November 19, 2020

2
Agenda
●Overview of Teams
●Current State of Data Discoverability
●Data Catalog Evaluation
●DataHub POC - Progress & Level of Eﬀort
●Highlight: DataHub Functionality

3
SpotHero’s Data-Focused Teams
Data Engineering

3 Engineers

SpotHero IQ
2 Engineers
3 Data Scientists
Analytics

3 Business Analysts
(We’re hiring!!)

4
1
2
3
Current State of Data Discoverability
Data Lineage is diﬃcult to discover and navigate,
regardless of role or tenure
●Impact analysis is arduous; Engineers avoid breaking changes at all costs
●Prolonged debugging/troubleshooting data issues
Diﬃcult to discover what data exists and/or
what it represents
●Reliance on tribal knowledge
●Large burden on the Analytics team to answer any/all questions
Conﬁdence in Data Accuracy is neutral, but room for
improvement
●Once folks track down the data, they are relatively conﬁdent in its
accuracy

May 2020 Internal Survey - Engineering, Product, Analytics, Data Science teams; 47% response rate

5
Data Catalog Evaluation
DataHub
Amundsen
/ Marquez
Apache
Atlas Alation
Ease of Integration
Lineage Support
Conﬁgurable
Metadata
Aﬀordability

6
Looker
Airﬂow
SpotHero’s Data Stack & DataHub POC
SH Application
Data
Workﬂow Tools
Marketing Tools
Microservices
Clickstream
Analytics
Redshift
S3/Parquet
Fivetran
Segment
Kafka
SQL
Python
Spark
Sources Ingestion Storage ETL
Complete
Q4 2020

7
1
2
3
DataHub POC - Level of Eﬀort
Research & Tool Evaluation: 180 hrs
●Creation of Pugh Matrix to force-rank evaluation
●Rapid side-by-side POC of DataHub and Amundsen/Marquez
Initial Rollout of DataHub POC: 300 hrs
●Terraform Elasticsearch, MySQL, Neo4j, Aiven; helm chart for
API/frontend/Kafka components
●Datalake & ETL scrapers, including lineage
●Enrich with ETL ownership, links to GHE
Looker & Kafka Metadata Ingestion & Lineage: Est. 160 hrs
●Building Looker/LookML scraper - planning to contribute back to DH codebase
●Teaming up with DataHub to inform design of Dashboard entities

8
DataHub Functionality: Cross-Platform Search

9
DataHub Functionality: Dataset Metadata
DDL & Ownership External Docs

10
DataHub Functionality:
Lineage

11
Yay Data Discoverability!

Download

Download Slideshow Get the original presentation file

Quick Actions

Statistics

Views 173
Slides 11
Age 1831 days

Data Discoverability with DataHub

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Data Discoverability with DataHub

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

8-top-ai-courses-for-customer-support-representatives-in-2025.pptx

7-essential-ai-courses-for-call-center-supervisors-in-2025.pptx

25-essential-ai-courses-for-user-support-specialists-in-2025.pptx

8-essential-ai-courses-for-insurance-customer-service-representatives-in-2025.pptx

Know for Certain

PPT OPD LES 3ertt4t4tqqqe23e3e3rq2qq232.pptx