Sarcastically Speaking: Unlocking Multi-modal Sentiment Analysis with NLP and Facial Expressions

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
David vonThenen
@davidvonthenen
Sarcastically Speaking
Unlocking Multimodal Sarcasm Analysis With NLP and
Facial Expressions

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
2
●Are you Human or an AI?
●I want 5 Kubernetes
●Virtual Machines are Real
●Cloudy, cloudy, cloudy…
●There is storage for that!

David
vonThenen
@davidvonthenen

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
3
@davidvonthenen
Agenda
●Sarcasm Is A Difﬁcult Problem
●Breaking The Problem Down
○Dataset Discussion
○Capturing Visual Cues
○Audio Characteristics
●Multimodal Classiﬁcation
●Workshop Materials
●Q&A

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
4
@davidvonthenen
Sarcasm Is Tough…

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
5
Video Credit:
The Big Bang Theory S02E14 - The Financial Permeability, WarnerMedia

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
6
@davidvonthenen
Demo: Sarcasm Classiﬁer Fail
https://youtu.be/PPAgMKBaTJ4

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
7

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
8
@davidvonthenen
Dataset Discussion

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
9
@davidvonthenen
Always Starts With Data
●Multimodal Sarcasm Detection Dataset
○github.com/soujanyaporia/MUStARD
○Paper: https://aclanthology.org/P19-1455.pdf
●Raw Video Clips
○The Big Bang Theory
○Friends
○The Golden Girls
○Sarcasmaholics Anonymous
●Capturing:
○Facial, Acoustic, Text

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
10
@davidvonthenen
Speaker Dependent Classiﬁcation
Training Data Validation Data Test Data

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
11
@davidvonthenen
Speaker Independent Classiﬁcation
Training Data Validation Data Test Data

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
12
@davidvonthenen
What Were Their Results?
●Speaker-Dependent Training
○Speaker Crossover
○Best: Text+Video ≈ 72%
weighted F1
○Unimodal:
■Text ≈ 65%
■Speech ≈ 65%
■Facial ≈ 67%
○~13% Error Reduction
From Multimodal

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
13
@davidvonthenen
Results Continued…
●Speaker-Independent Training
○New Speaker at Test Time
○Best: Text+Audio ≈ 63%
weighted F1
○Unimodal:
■Text ≈ 60%
■Speech ≈ 63%
■Facial ≈ 54%
○Video feat hurt (capturing
char/show bias) than
speaker-agnostic cues.

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
14
@davidvonthenen
How To Improve?
●A Lot of Data Grooming…
○Visually Isolate The Speaker
○Acoustic Speaker Isolation
○Removing "Dead" Audio
○Removing "Dead" Video
●Additional Prosodic Features
●Change Facial LSTM to Use
Bucketing Approach
○Handle Variable Length
●Facial Anchoring

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
15
Video Grooming: Before
Video Credit:
The Big Bang Theory (S01E08 "The Grasshopper Experiment")

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
16
Video Grooming: After
Video Credit:
The Big Bang Theory (S01E08 "The Grasshopper Experiment")

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
17
Audio Grooming: Before
Video Credit:
The Big Bang Theory (S03E11 "The Maternal Congruence")

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
18
Audio Grooming: After
Video Credit:
The Big Bang Theory (S03E11 "The Maternal Congruence")

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
19
@davidvonthenen
Capturing Visual Cues

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
20
@davidvonthenen
Convert Video to Data

Facial Landmarks w/ Dlib: https://dlib.net
Image Credit:
Adrian Rosebrock
https://pyimagesearch.com/2017/04/03/facial-landmarks-dlib-opencv-python/

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
21
@davidvonthenen
Feature Engineering

●Landmark Acceleration
●Landmark Velocity
●Interpolate and Fill
○Missing Landmark in
Frames
●Handle Variable Length Clips
●Nose Tip Anchoring

Image Credit:
Entertainment Weekly
https://ew.com/movies/rudolph-the-red-nosed-reindeer-christmas-classic/

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
22
Original Video

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
23
Video With Landmarks

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
24
@davidvonthenen
Data Processing Pipeline
●Video -> Frame Features to CSV
○Using dlib Landmarker
○Get X and Y Coordinates
●CSV File <-> Seq. Modeling
○Movement Data Across Frames
○Features Captured:
■Velocity/Accel, Buckets, Nose Tip
Anchoring, etc
○LSTM to Capture Temporal
Dependencies
●Tuning -> Final Model

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
25
@davidvonthenen
Model Architecture

●Long-Short Term Memory
○Think Time-Series Data
●LSTM Buckets
○Use Similar Sizes For Inference
●Nose Tip Anchoring
●Hyperparameter Tuning

●Results:
○Normalizing Coordinates
○Buckets Minimize Padding

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
26
@davidvonthenen
Demo: Sarcasm Facial Classiﬁer
https://youtu.be/uEly8yNcGBw

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
27
@davidvonthenen
Audio Characteristics

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
28
@davidvonthenen
ML Audio Classiﬁcation?
●MANY Doing This!
●Spectrogram Comparison
○Visual Representation
○Similarities Visually
●Example Projects:
○Cats vs Dogs
○Environmental Sounds
○Gunshot Recognition

Image Credit:
Fast environmental sound classification based on
resource adaptive convolutional neural network DOI:10.1038/s41598-022-10382-x

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
29
@davidvonthenen
Feature Engineering
●Extracted Prosodic (Audio) Measurements:
○Energy (RMS)
■Root Mean Sq. = Projection, Loudness, etc
○Formants Freq.
■Formants = Vocal Resonance Changes
■Mean, Standard Deviation
○Harmonics-to-Noise Ratio (HNR), etc
■HNR = Breathiness/Roughness
○Jitter
■Cycle-to-Cycle Variation in Frequency
○Shimmer
■Cycle-to-Cycle Amplitude Variations
○Etc

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
30
@davidvonthenen
Data Processing Pipeline
●Video -> Frame Features to CSV
○Using librosa Audio Analysis
○Using Transcription Platform
■Word-level Timestamps
●CSV File <-> Seq. Modeling
○Capture Acoustics Over Time
○Features Captured:
■Word-level Alignment
○LSTM to Capture Acoustics
○CNN to Associate Transcription
●Tuning -> Final Model

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
31
@davidvonthenen
Model Architecture

●LSTM + CNN Model
○Long Short-Term Memory (Time-Series)
○Convolution Neural Network (Local)
●Word/Text Embeddings
○Word Sequence Appended to CNN
○Each Utterance is Time Aligned
■Captures Pacing, Intonation, etc
●Why This is Effective? Merges…
○Short Terms Acoustics
○Long Term Linguistic Context
○Combine Neural Network Techniques

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
32
@davidvonthenen
Demo: Sarcasm Acoustic Classiﬁer
https://youtu.be/n4AZT0FrX98

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
33
@davidvonthenen
Multimodal Classiﬁcation

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
34
@davidvonthenen
Unimodal Results
●Speaker-Dependent Model
○Speaker Crossover
○Unimodal:
■Speech ≈ 76% (Comp: 65%)
■Facial ≈ 78% (Comp: 67%)
●Speaker-Independent Model
○New Speaker at Test Time
○Unimodal:
■Speech ≈ 69% (Comp: 63%)
■Facial ≈ 68% (Comp: 54%)

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
35
@davidvonthenen
Demo: Multimodal Classiﬁer
https://youtu.be/wVOPCg0Ry-Y

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
36
@davidvonthenen
Multimodal Prediction
●Speaker-Dependent Results
○Speaker Crossover
○Accuracy ≈ 80%
■MUStARD Original ≈ 72%
●Speaker-Independent Results
○New Speaker at Test Time
○Accuracy ≈ 70%
■MUStARD Original ≈ 62%
●What Could Improve?

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
37
@davidvonthenen
Future Improvements
●General:
○Need Much Larger Dataset
●Facial / Landmarks:
○Fixed/Centered Camera Angle
○3D (x, y, z) Landmark Coord.
○Map Facial Landmark to Utterance
●Speech / Acoustics:
○Removal Background Noise
●Context:
○Entire Conversation Context

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
@davidvonthenen
38
Not Perfect…

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
39
@davidvonthenen
Workshop Materials

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
40
@davidvonthenen
Resources

CLICK HERE] for All Material Contained in this Session CLICK HERE
https://github.com/davidvonthenen/2025-ai-dev-europe
Workshop Includes:
●Build/Test of Facial Sarcasm Model
●Build/Test of Acoustic Sarcasm Model
●Running Multimodal Inference

Other Resources:
●SCaLE 22x - Parkinson's Gait and Audio Classifier
●RTC Conference 2024 Keynote - Parkinson's Gait

感谢您下载包图网平台上提供的PPT作品，为了您和包图网以及原创作者的利益，请勿复制、传播、销售，否则将承担法律责任！包图网将对作品进行维权，按照传播下载次数进行十倍的索取赔偿！
ibaotu.com
Thank You!
Senior AI/ML Engineer
@davidvonthenen
David vonThenen

Sarcastically Speaking: Unlocking Multi-modal Sentiment Analysis with NLP and Facial Expressions

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

Sarcastically Speaking: Unlocking Multi-modal Sentiment Analysis with NLP and Facial Expressions

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 20

Slide 21

Slide 22

Slide 23

Slide 24

Slide 25

Slide 26

Slide 27

Slide 28

Slide 29

Slide 30

Slide 31

Slide 32

Slide 33

Slide 34

Slide 35

Slide 36

Slide 37

Slide 38

Slide 39

Slide 40

Slide 41

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

8-top-ai-courses-for-customer-support-representatives-in-2025.pptx

7-essential-ai-courses-for-call-center-supervisors-in-2025.pptx

25-essential-ai-courses-for-user-support-specialists-in-2025.pptx

8-essential-ai-courses-for-insurance-customer-service-representatives-in-2025.pptx

Know for Certain

PPT OPD LES 3ertt4t4tqqqe23e3e3rq2qq232.pptx