Live Demo: Introducing the Spark Connector for MongoDB

mongodb 1,708 views 48 slides Sep 15, 2016

Slide 1 of 48

About This Presentation

In this session we will guide you on the principles of MongoDB and Spark and provide examples using the new MongoDB-Spark connector.

Size: 6.05 MB

Language: en

Added: Sep 15, 2016

Slides: 48 pages

Slide Content

MongoDB Connector For Spark

HDFS Distributed Data

Spark Stand Alone YARN Mesos HDFS Distributed Resources

YARN Spark Mesos HDFS Spark Stand Alone Hadoop Distributed Processing

YARN Spark Mesos Hive Pig HDFS Hadoop Spark Stand Alone D omain Specific Languages

YARN Spark Mesos Hive Pig Spark SQL Spark Shell Spark Streaming HDFS Spark Stand Alone Hadoop

YARN Spark Mesos Hive Pig Spark SQL Spark Shell Spark Streaming Spark Stand Alone Hadoop

Stand Alone YARN Spark Mesos Spark SQL Spark Shell Spark Streaming

executor Worker Node executor Worker Node Master Spark Connector Driver Application

Parellelize Parellelize Parellelize Parellelize

Parellelize Parellelize Parellelize Parellelize Transform Transform Transform Transform

Transformations filter( func ) union( func ) intersection( set ) distinct( n ) map( function )

Parellelize Parellelize Parellelize Parellelize Transform Transform Transform Transform Transform Transform Transform Transform

Parellelize Parellelize Parellelize Parellelize Transform Transform Transform Transform Transform Transform Transform Transform Action Action Action Action

Actions collect() count() first() take( n ) reduce( function )

Parellelize Parellelize Parellelize Parellelize Transform Transform Transform Transform Transform Transform Transform Transform Action Action Action Action Result Result Result Result

Parellelize Parellelize Parellelize Parellelize Transform Transform Transform Transform Transform Transform Transform Transform Action Action Action Action Result Result Result Result Lineage

Parellelize Parellelize Parellelize Parellelize Transform Transform Transform Transform Transform Transform Transform Transform Action Action Action Action

Parellelize Parellelize Parellelize Parellelize Transform Transform Transform Transform Transform Transform Transform Transform Action Action Action Action Result Result Result Result

Using the Connector

https://github.com/mongodb/mongo- spark

http://spark.apache.org/docs/latest/

{ "_id" : ObjectId("578be1fe1fe699f2deb80807"), "user_id" : 196, "movie_id" : 242, "rating" : 3, "timestamp" : 881250949 }

./b in/spark-shell \ --conf \ "spark.mongodb.input.uri=mongodb://127.0.0.1/movies.movie_ratings" \ --conf \ "spark.mongodb.output.uri=mongodb://127.0.0.1/movies.user_recommendations" \ --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0

./bin/spark-shell \ --conf \ "spark.mongodb.input.uri=mongodb://127.0.0.1/movies.movie_ratings" \ --conf \ "spark.mongodb.output.uri=mongodb://127.0.0.1/movies.user_recommendations" \ --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0

./bin/spark-shell \ --conf \ "spark.mongodb.input.uri=mongodb://127.0.0.1/movies.movie_ratings" \ --conf \ "spark.mongodb.output.uri=mongodb://127.0.0.1/movies.user_recomm endations" \ --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0

./bin/spark-shell \ --conf \ "spark.mongodb.input.uri=mongodb://127.0.0.1/movies.movie_ratings" \ --conf \ "spark.mongodb.output.uri=mongodb://127.0.0.1/movies.user_recommendations" \ --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0

import com.mongodb.spark._ import com.mongodb.spark.rdd.MongoRDD import org.bson.Document val rdd = sc.loadFromMongoDB() for( doc <- rdd.take( 10 ) ) println( doc )

Read Config Write Config

Aggregation Filters $match | $project | $group

JSON JSON JSON JSON JSON JSON JSON JSON JSON JSON JSON

val aggRdd = rdd.withPipeline( Seq( Document.parse( "{ $match: { Country: \"USA\" } }" ) ) )

Spark SQL + Dataframes

RDD + Schema = Dataframe

JSON JSON JSON JSON JSON JSON JSON JSON JSON JSON JSON $sample

Data Locality mongos

Courses and Resources

https://university.mongodb.com/courses/M233/about

THANKS! @blimpyacht

Download

Download Slideshow Get the original presentation file

Quick Actions

Statistics

Views 1,708
Slides 48
Favorites 2
Age 3364 days

Live Demo: Introducing the Spark Connector for MongoDB

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Live Demo: Introducing the Spark Connector for MongoDB

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 20

Slide 21

Slide 22

Slide 23

Slide 24

Slide 25

Slide 26

Slide 27

Slide 28

Slide 29

Slide 30

Slide 31

Slide 32

Slide 33

Slide 34

Slide 35

Slide 36

Slide 37

Slide 38

Slide 39

Slide 40

Slide 41

Slide 42

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

8-top-ai-courses-for-customer-support-representatives-in-2025.pptx

7-essential-ai-courses-for-call-center-supervisors-in-2025.pptx

25-essential-ai-courses-for-user-support-specialists-in-2025.pptx

8-essential-ai-courses-for-insurance-customer-service-representatives-in-2025.pptx

Know for Certain

PPT OPD LES 3ertt4t4tqqqe23e3e3rq2qq232.pptx