Sarcastically Speaking: Unlocking Multi-modal Sentiment Analysis with NLP and Facial Expressions

DavidvonThenen 0 views 41 slides Sep 25, 2025
Slide 1
Slide 1 of 41
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41

About This Presentation

Sentiment analysis is easy—until sarcasm enters the chat. Traditional natural language processing models often stumble when trying to decode sarcastic nuances, missing crucial contextual cues and delivering misleading results. To tackle this, we will explore a multi-modal approach that integrates ...


Slide Content

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
David vonThenen
@davidvonthenen
Sarcastically Speaking
Unlocking Multimodal Sarcasm Analysis With NLP and
Facial Expressions

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
2
●Are you Human or an AI?
●I want 5 Kubernetes
●Virtual Machines are Real
●Cloudy, cloudy, cloudy…
●There is storage for that!

David
vonThenen
@davidvonthenen

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
3
@davidvonthenen
Agenda
●Sarcasm Is A Difficult Problem
●Breaking The Problem Down
○Dataset Discussion
○Capturing Visual Cues
○Audio Characteristics
●Multimodal Classification
●Workshop Materials
●Q&A

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
4
@davidvonthenen
Sarcasm Is Tough…

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
5
Video Credit:
The Big Bang Theory S02E14 - The Financial Permeability, WarnerMedia

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
6
@davidvonthenen
Demo: Sarcasm Classifier Fail
https://youtu.be/PPAgMKBaTJ4

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
7

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
8
@davidvonthenen
Dataset Discussion

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
9
@davidvonthenen
Always Starts With Data
●Multimodal Sarcasm Detection Dataset
○github.com/soujanyaporia/MUStARD
○Paper: https://aclanthology.org/P19-1455.pdf
●Raw Video Clips
○The Big Bang Theory
○Friends
○The Golden Girls
○Sarcasmaholics Anonymous
●Capturing:
○Facial, Acoustic, Text

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
10
@davidvonthenen
Speaker Dependent Classification
Training Data Validation Data Test Data

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
11
@davidvonthenen
Speaker Independent Classification
Training Data Validation Data Test Data

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
12
@davidvonthenen
What Were Their Results?
●Speaker-Dependent Training
○Speaker Crossover
○Best: Text+Video ≈ 72%
weighted F1
○Unimodal:
■Text ≈ 65%
■Speech ≈ 65%
■Facial ≈ 67%
○~13% Error Reduction
From Multimodal

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
13
@davidvonthenen
Results Continued…
●Speaker-Independent Training
○New Speaker at Test Time
○Best: Text+Audio ≈ 63%
weighted F1
○Unimodal:
■Text ≈ 60%
■Speech ≈ 63%
■Facial ≈ 54%
○Video feat hurt (capturing
char/show bias) than
speaker-agnostic cues.

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
14
@davidvonthenen
How To Improve?
●A Lot of Data Grooming…
○Visually Isolate The Speaker
○Acoustic Speaker Isolation
○Removing "Dead" Audio
○Removing "Dead" Video
●Additional Prosodic Features
●Change Facial LSTM to Use
Bucketing Approach
○Handle Variable Length
●Facial Anchoring

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
15
Video Grooming: Before
Video Credit:
The Big Bang Theory (S01E08 "The Grasshopper Experiment")

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
16
Video Grooming: After
Video Credit:
The Big Bang Theory (S01E08 "The Grasshopper Experiment")

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
17
Audio Grooming: Before
Video Credit:
The Big Bang Theory (S03E11 "The Maternal Congruence")

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
18
Audio Grooming: After
Video Credit:
The Big Bang Theory (S03E11 "The Maternal Congruence")

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
19
@davidvonthenen
Capturing Visual Cues

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
20
@davidvonthenen
Convert Video to Data

Facial Landmarks w/ Dlib: https://dlib.net
Image Credit:
Adrian Rosebrock
https://pyimagesearch.com/2017/04/03/facial-landmarks-dlib-opencv-python/

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
21
@davidvonthenen
Feature Engineering

●Landmark Acceleration
●Landmark Velocity
●Interpolate and Fill
○Missing Landmark in
Frames
●Handle Variable Length Clips
●Nose Tip Anchoring

Image Credit:
Entertainment Weekly
https://ew.com/movies/rudolph-the-red-nosed-reindeer-christmas-classic/

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
22
Original Video

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
23
Video With Landmarks

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
24
@davidvonthenen
Data Processing Pipeline
●Video -> Frame Features to CSV
○Using dlib Landmarker
○Get X and Y Coordinates
●CSV File <-> Seq. Modeling
○Movement Data Across Frames
○Features Captured:
■Velocity/Accel, Buckets, Nose Tip
Anchoring, etc
○LSTM to Capture Temporal
Dependencies
●Tuning -> Final Model

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
25
@davidvonthenen
Model Architecture

●Long-Short Term Memory
○Think Time-Series Data
●LSTM Buckets
○Use Similar Sizes For Inference
●Nose Tip Anchoring
●Hyperparameter Tuning

●Results:
○Normalizing Coordinates
○Buckets Minimize Padding

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
26
@davidvonthenen
Demo: Sarcasm Facial Classifier
https://youtu.be/uEly8yNcGBw

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
27
@davidvonthenen
Audio Characteristics

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
28
@davidvonthenen
ML Audio Classification?
●MANY Doing This!
●Spectrogram Comparison
○Visual Representation
○Similarities Visually
●Example Projects:
○Cats vs Dogs
○Environmental Sounds
○Gunshot Recognition


Image Credit:
Fast environmental sound classification based on
resource adaptive convolutional neural network DOI:10.1038/s41598-022-10382-x

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
29
@davidvonthenen
Feature Engineering
●Extracted Prosodic (Audio) Measurements:
○Energy (RMS)
■Root Mean Sq. = Projection, Loudness, etc
○Formants Freq.
■Formants = Vocal Resonance Changes
■Mean, Standard Deviation
○Harmonics-to-Noise Ratio (HNR), etc
■HNR = Breathiness/Roughness
○Jitter
■Cycle-to-Cycle Variation in Frequency
○Shimmer
■Cycle-to-Cycle Amplitude Variations
○Etc

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
30
@davidvonthenen
Data Processing Pipeline
●Video -> Frame Features to CSV
○Using librosa Audio Analysis
○Using Transcription Platform
■Word-level Timestamps
●CSV File <-> Seq. Modeling
○Capture Acoustics Over Time
○Features Captured:
■Word-level Alignment
○LSTM to Capture Acoustics
○CNN to Associate Transcription
●Tuning -> Final Model

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
31
@davidvonthenen
Model Architecture

●LSTM + CNN Model
○Long Short-Term Memory (Time-Series)
○Convolution Neural Network (Local)
●Word/Text Embeddings
○Word Sequence Appended to CNN
○Each Utterance is Time Aligned
■Captures Pacing, Intonation, etc
●Why This is Effective? Merges…
○Short Terms Acoustics
○Long Term Linguistic Context
○Combine Neural Network Techniques

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
32
@davidvonthenen
Demo: Sarcasm Acoustic Classifier
https://youtu.be/n4AZT0FrX98

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
33
@davidvonthenen
Multimodal Classification

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
34
@davidvonthenen
Unimodal Results
●Speaker-Dependent Model
○Speaker Crossover
○Unimodal:
■Speech ≈ 76% (Comp: 65%)
■Facial ≈ 78% (Comp: 67%)
●Speaker-Independent Model
○New Speaker at Test Time
○Unimodal:
■Speech ≈ 69% (Comp: 63%)
■Facial ≈ 68% (Comp: 54%)

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
35
@davidvonthenen
Demo: Multimodal Classifier
https://youtu.be/wVOPCg0Ry-Y

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
36
@davidvonthenen
Multimodal Prediction
●Speaker-Dependent Results
○Speaker Crossover
○Accuracy ≈ 80%
■MUStARD Original ≈ 72%
●Speaker-Independent Results
○New Speaker at Test Time
○Accuracy ≈ 70%
■MUStARD Original ≈ 62%
●What Could Improve?

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
37
@davidvonthenen
Future Improvements
●General:
○Need Much Larger Dataset
●Facial / Landmarks:
○Fixed/Centered Camera Angle
○3D (x, y, z) Landmark Coord.
○Map Facial Landmark to Utterance
●Speech / Acoustics:
○Removal Background Noise
●Context:
○Entire Conversation Context

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
@davidvonthenen
38
Not Perfect…

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
39
@davidvonthenen
Workshop Materials

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
40
@davidvonthenen
Resources

CLICK HERE] for All Material Contained in this Session CLICK HERE
https://github.com/davidvonthenen/2025-ai-dev-europe
Workshop Includes:
●Build/Test of Facial Sarcasm Model
●Build/Test of Acoustic Sarcasm Model
●Running Multimodal Inference

Other Resources:
●SCaLE 22x - Parkinson's Gait and Audio Classifier
●RTC Conference 2024 Keynote - Parkinson's Gait

感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!
ibaotu.com
Thank You!
Senior AI/ML Engineer
@davidvonthenen
David vonThenen