Large scale stream processing with Apache Flink

nstoitsev 230 views 73 slides Dec 02, 2018

Slide 1 of 73

About This Presentation

In today’s world it’s no longer enough to build systems that process big volumes of information. We now need applications that can handle large continuous streams of data with very low latency so we can react to the ever-changing environment around us. To efficiently handle such problems we need...

Size: 2.35 MB

Language: en

Added: Dec 02, 2018

Slides: 73 pages

Slide Content

Large scale stream
processing with
Apache Flink
Nikolay Stoitsev
Sr. Software Engineer at Uber Tech Sofia

Stream Processing?

Stream Processing?
User Interaction Logs

Stream Processing?
User Interaction Logs

Application Logs

Stream Processing?
User Interaction Logs

Application Logs

Sensor Data

Stream Processing?
User Interaction Logs

Application Logs

Sensor Data

Database Commit Logs

Infinite Dataset

Producer
Stream

Producer
Stream HDFS

Producer
Stream HDFS
Hive

Producer
Stream HDFS
Hive
Big Latency

Producer
Stream
HDFS
Real-time
service

Apache Storm
storm.apache.org

High-latency & accurate
vs.
Low-latency & approximation

Lambda architecture

https://www.oreilly.com/ideas/questioning-the-lambda-architecture

Kappa Architecture

Use Apache Kafka
Durable, scalable, fault-tolerant

Producer
Kafka
Stream
Processor

Metrics we want to track
Net payout
Daily items sold
Weekly items sold

Order acceptance rate
Order preparation speed
Item rating

Real time

Scalable

Granular

Highly available

Order Stream
Payment Stream
User Rating Stream

Order Stream
Payment Stream
User Rating Stream
Stream Processor
OLAP

samza.apache.org

Apache Flink
flink.apache.org

Everything is a batch
vs.
Everything is a stream

Single JVM Cluster Cloud
Runtime
DataSet API DataStream API

Dataflow graph

Source
Source
Operator
Operator
Operator Sinc
OLAP

https://ci.apache.org/projects/flink/flink-docs-release-1.6/concepts/programming-model.html

Flink Program
Optimizer
Graph Builder
Client

Flink Program
Optimizer
Graph Builder
Client
Job Manager
Task Manager Task Manager

Flink Program
Optimizer
Graph Builder
Client
Job Manager
Task Manager Task Manager
Snapshot Store

Fault tolerant

Flink Program
Optimizer
Graph Builder
Client
Job Manager
Task Manager Task Manager
Snapshot Store

Lightweight Asynchronous Snapshots for
Distributed Dataflows

Paris Carbone,
Gyula Fóra,
Stephan Ewen
Seif Haridi
Kostas Tzoumas

Barrier Msg MsgBarrierMsg MsgBarrier
Operator

Barrier Msg MsgBarrierMsg Msg
Operator
Msg
Snapshot Store

Exactly Once Processing

Can handle very large state

Flink Program
Optimizer
Graph Builder
Client
Job Manager
Task Manager Task Manager
Snapshot Store

Flink Program
Optimizer
Graph Builder
Client
Job Manager
Task Manager Task Manager
Snapshot Store
Job
Manager
Job
Manager
Zookeeper

Flink Program
Optimizer
Graph Builder
Client
Task Manager Task Manager
Snapshot Store
Job
Manager
Job
Manager
Zookeeper

Joining Streams

Order Stream
User Rating Stream

Order Stream
User Rating Stream
Local Join
Local Join

Apache Flink
●Can join streams
●Fault tolerant
●Exactly Once Processing
●Combines stream and batch processing

… but it requires Java/Scala code

Scalable, efficient and robust

github.com/uber/AthenaX

SQL → what data to analyze

Flink → how to analyze it

Resource estimation and
auto scaling

Monitoring and automatic
failure recovery

eng.uber.com/athenax

Thanks!
Nikolay Stoitsev @ Uber

Download

Download Slideshow Get the original presentation file

Quick Actions

Statistics

Views 230
Slides 73
Favorites 1
Age 2557 days

Large scale stream processing with Apache Flink

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Large scale stream processing with Apache Flink

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 22

Slide 23

Slide 24

Slide 25

Slide 26

Slide 27

Slide 28

Slide 29

Slide 30

Slide 31

Slide 32

Slide 33

Slide 34

Slide 35

Slide 36

Slide 37

Slide 38

Slide 39

Slide 40

Slide 41

Slide 42

Slide 43

Slide 44

Slide 45

Slide 46

Slide 47

Slide 48

Slide 49

Slide 50

Slide 51

Slide 52

Slide 53

Slide 54

Slide 55

Slide 56

Slide 57

Slide 58

Slide 59

Slide 60

Slide 61

Slide 69

Slide 70

Slide 71

Slide 72

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

8-top-ai-courses-for-customer-support-representatives-in-2025.pptx

7-essential-ai-courses-for-call-center-supervisors-in-2025.pptx

25-essential-ai-courses-for-user-support-specialists-in-2025.pptx

8-essential-ai-courses-for-insurance-customer-service-representatives-in-2025.pptx

Know for Certain

PPT OPD LES 3ertt4t4tqqqe23e3e3rq2qq232.pptx