Extended Summary of "Evolving Bots: The New Generation of Comment Bots and their Underlying Scam Campaigns in YouTube"
MatteoClementin
16 views
9 slides
Mar 05, 2025
Slide 1 of 9
1
2
3
4
5
6
7
8
9
About This Presentation
TESI
Size: 1.04 MB
Language: it
Added: Mar 05, 2025
Slides: 9 pages
Slide Content
UNIVERSITÀ DEGLI STUDI DI TRIESTE
DIPARTIMENTO DI INGEGNERIA E ARCHITETTURA
Corso di Laurea in
INGEGNERIA ELETTRONICA E INFORMATICA
Curriculum INFORMATICA
TESI DI LAUREA
Extended Summary of
"Evolving Bots: The New Generation of
Comment Bots and their Underlying Scam
Campaigns in YouTube"
Laureando:
Matteo Clementin
Relatore:
Prof. Alberto Bartoli
ANNO ACCADEMICO 2023 - 2024
1
Indice
INTRODUZIONE .................................................................................................................. 2
METODOLOGIA DI RILEVAMENTO ....................................................................................... 3
ANALISI DELL’IMPATTO DEI SSBS ...................................................................................... 4
EFFICACIA DELLA MITIGAZIONE DI YOUTUBE .................................................................... 6
STRATEGIE DEI SSBS ......................................................................................................... 6
CONCLUSIONI .................................................................................................................... 7
Bibliografia ....................................................................................................................... 8
2
INTRODUZIONE
Nel contesto degli online social networks (OSNs), l’evoluzione dei bots malevoli
comporta una minaccia crescente per gli utenti: semplici programmi automatizzati si sono
evoluti nei cosiddetti social bots, capaci di imitare utenti reali così da infiltrarsi nelle loro
community aggirando gli strumenti di rilevamento.
L’obiettivo dello studio è quello di analizzare il comportamento dei social scam
bots (SSBs) su YouTube, ovvero social bots che promuovono campagne fraudolente
all’interno dei loro profili.
I SSB, per non essere rilevati, agi-
scono riproducendo commenti reali: que-
sto approccio risulta particolarmente fun-
zionale su YouTube, dove le limitate inte-
razioni e informazioni nei profili rendono
inadeguati gli strumenti applicati in altri
OSNs.
Questo è il primo studio che pro-
pone un’analisi del problema su YouTube
e le domande che si pone l’obiettivo di ri-
spondere sono:
1. Come è possibile rilevare i SSBs?
2. Qual è il loro impatto su YouTube?
3. Quanto è efficace la mitigazione adottata da YouTube?
4. Quali strategie utilizzano per massimizzare la loro efficacia?
Figura 1: Esempio di un SSB su YouTube.
Questo bot imita un utente reale nella sezione com-
menti di un video e promuove la campagna fraudolenta
all’interno del proprio profilo tramite dei link presenti
nella descrizione o nel banner.
3
METODOLOGIA DI RILEVAMENTO
Per condurre le proprie analisi, lo studio ha collezionato tramite un crawler i primi
1000 commenti (ordinati secondo l’algoritmo di YouTube) e le relative prime 10 risposte
dei 50 video più recenti dei 1000 youtubers statunitensi più popolari.
Per identificare nel dataset i commenti potenzialmente scritti da SSBs, si sfrutta
la loro tendenza ad essere simili a commenti di utenti reali; tuttavia, essendo i commenti
originali e imitati indistinguibili tra loro, durante questo processo si parlerà di “candidati
SSB”. A tale scopo, i commenti vengono convertiti in sentence embeddings, vettori nu-
merici che ne codificano le informazioni semantiche. Esistono diversi large language
models (LLMs) in grado di effettuare questo procedimento, come RoBERTa e Sentence-
BERT; tuttavia, le loro prestazioni non possono essere garantite in un dataset composto
da soli commenti YouTube. Pertanto, per garantire competenza sul dominio, è stato svi-
luppato un nuovo LLM, YouTuBERT, ottenuto dal pre-addestramento di RoBERTa sul
dataset di commenti raccolto.
Per confrontare le tecniche di sentence embedding, è stato costruito un dataset di
ground truth. Per farlo, i commenti sono stati trasformati in vettori TF-IDF e raggruppati
in clusters utilizzando DBSCAN: TF-IDF fornisce una rappresentazione oggettiva del
testo basata sulla frequenza delle parole piuttosto che sul significato semantico attribuito
da un LLM, permettendone un successivo confronto equo, mentre DBSCAN agevola
l’esclusione di commenti “reali” dai clusters dal momento che, essendo molto diversi da
quelli riprodotti dai SSBs, vengono ritenuti outliers. Successivamente, è stato campionato
l’1% dei clusters e tre esperti hanno etichettato indipendentemente ogni commento come
“candidato SSB” se presentava: somiglianza con altri; nome utente contenente termini
Figura 2: Flusso di lavoro per il rilevamento dei SSBs e l’estrazione delle loro campagne truffaldine.
4
sospetti; testo già segnalato come candidato SSBs; URL del canale che richiamava domini
sospetti. L’etichetta finale è stata decisa per maggioranza e il dataset ottenuto è risultato
avere 3464 commenti “candidati SSB” e 21242 commenti “reali”.
Sul dataset ottenuto sono state confrontate le prestazioni dei tre LLMs nel gene-
rare sentence embeddings che permettano un clustering efficace tramite DBSCAN per
diversi valori di ε, la massima distanza semantica tra due commenti per appartenere allo
stesso cluster. Dai risultati in tabella, si
nota come YouTuBERT dimostri presta-
zioni consistenti a differenza di quelle de-
gli altri LLMs, le quali degradano all’au-
mentare di ε, complicandone la scelta su
datasets più ampi. Pertanto, è stato selezio-
nato YouTuBERT, usando l’ε che massi-
mizza l’F1-Score. Va sottolineato che lo
scopo di YouTuBERT è la scrematura dei
candidati che richiedono ulteriori analisi;
pertanto, il valore di precisione non incide
sulle prestazioni generali.
Infine, per identificare i SSBs è stato utilizzato un secondo crawler per estrarre gli
URL dai profili dei commenti candidati, i quali sono stati filtrati in base al dominio di
secondo livello (SLD): sono stati esclusi i SLD presenti nella maggioranza dei profili
(come facebook.com, instagram.com, …) e quelli presenti in un unico profilo, poiché
associati a siti personali. I SLDs rimanenti sono stati verificati tramite diversi servizi web
antifrode: i profili contenenti SLDs ritenuti fraudolenti da almeno uno di questi servizi
sono stati considerati SSBs.
ANALISI DELL’IMPATTO DEI SSBS
L’analisi del dataset ha permesso di rilevare complessivamente 1134 SSBs, diffusi
nel 31.73% dei video studiati. Dai SLDs trovati nei rispettivi profili, sono state identifi-
cate 72 campagne fraudolente (dove ciascuna campagna corrisponde ad uno specifico
SLD), suddivise in 6 categorie: le due principali, “romance” e “game vouchers”, hanno
cardinalità simili ma differiscono notevolmente nella percentuale di video infettati, ossia
Tabella 1: Prestazioni delle tecniche di sentence embed-
ding rispetto all’ε utilizzato in DBSCAN sul dataset di
ground truth.
Un vero positivo è un commento “candidato SSB” rag-
gruppato in un cluster e un vero negativo un com-
mento “reale” non raggruppato.
5
le cui sezioni commenti contengono almeno un commento scritto da un SSB (28.80% nel
primo caso, 4.88% nel secondo).
Per comprendere l’impatto dei SSBs, è importante studiarne i bersagli: il canale,
il video e i commenti.
Per l’analisi del primo, è stata stimata una relazione tra il numero di SSBs per
canale e le sue caratteristiche tramite regressione basata sul metodo dei minimi quadrati:
??????????????????????????????
????= ?????? ∗ ??????
???+ ?????? ∗ ??????
???+ ?????? ∗ ??????
???+ ?????? ∗ ??????
???+ ??????????????????????????????
Dai risultati in tabella, si nota come le va-
riabili che rappresentano “numero di
iscritti” e “numero medio di commenti”
abbiano alta significatività statistica, di-
mostrando una correlazione positiva tra
esse e il numero di infezioni che subisce
un canale.
Dall’analisi dei video, è stato osservato come delle 23 categorie di video totali,
solo “videogiochi” dimostri una correlazione significativa con le infezioni: la categoria
di SSBs “game vouchers” bersaglia quasi esclusivamente questi video, in modo da ap-
procciare utenti, spesso minorenni, più propensi ad essere interessati alla loro campagna.
Analizzando i commenti, è stato notato che i SSBs tendono a copiare quelli recenti
con più “mi piace”, così da aumentare la
propria visibilità. Dalla figura si può no-
tare come i SSBs abbiano una buona ten-
denza a sfruttare l’algoritmo di YouTube:
osservando i “new-to-prior SSBs”
emerge come 603 SSBs, pari al 53.17%
dei rilevati, siano riusciti a scrivere al-
meno un commento in grado di raggiun-
gere le prime 20 posizioni sotto ad un vi-
deo.
Tabella 2: Risultati della regressione lineare.
Un valore p < 0.001 indica alta significatività statistica
delle variabili.
Figura 3: Per ciascun indice sull'asse delle ascisse, il gra-
fico mostra il numero di commenti (in blu) scritti da SSBs
che sono stati individuati in tale posizione sotto ad un vi-
deo, assieme al numero complessivo di SSBs che li hanno
scritti (in arancione); in verde viene indicato il numero di
SSBs per cui tale posizione rappresenta la massima posi-
zione raggiunta da un proprio commento.
6
EFFICACIA DELLA MITIGAZIONE DI YOUTUBE
Nei 6 mesi osservati, YouTube ha rimosso il 47.97% dei SSBs, con “game vou-
chers” come categoria più colpita, segno di una maggiore attenzione di YouTube verso i
contenuti per i giovani.
Tuttavia, non tutti i SSBs hanno lo stesso impatto; per questo, lo studio propone
di misurare la qualità di un SSB tramite la sua esposizione attesa, definita come il poten-
ziale numero di persone che sono state esposte all’URL nel profilo del SSB:
??????[??????????????????????????????????????????????????????????????????(??????????????????)]=???????(??????)⋅ ??????
???
6
k??????(??????)o
?
dove ?????? è il video infettato, ??????(??????) le sue visualizzazioni, ??????(??????) il canale del video e
??????
???
6
(??????(??????)) il quadrato del suo tasso d’interazione, ovvero il rapporto del numero totale
di interazioni che un canale genera rispetto ai propri utenti. L’elevazione al quadrato tiene
conto della doppia interazione necessaria per un utente per poter essere esposto alla truffa:
visita al profilo e apertura del sito fraudolento.
Dalla tabella si può evincere che, no-
nostante i SSBs rimossi fossero in media re-
sponsabili dell’infezione di un maggior nu-
mero di video rispetto a quelli ancora attivi
(rispettivamente, 16.7 contro 16.2 per SSB),
questi ultimi presentano un’esposizione at-
tesa 1,28 volte maggiore: ciò delinea un fallimento da parte di YouTube nell’identificare
i SSBs più pericolosi, forse dovuto alla priorità rivolta ai contenuti per minori. L’esposi-
zione attesa potrebbe aiutare nell’identificare dei SSBs più dannosi, riducendo il rischio
per l’utenza generale.
STRATEGIE DEI SSBS
Lo studio ha individuato due principali strategie adottate dai SSBs per massimiz-
zare la propria efficacia.
La prima è l’abbreviazione degli URL: tramite specifici servizi web è possibile
generare un URL alternativo che reindirizza a quello originale. Il 56.8% dei SSBs usa
questa strategia, poiché permette di mascherare il dominio fraudolento in modo da non
Tabella 3: Confronto tra SSBs attivi e rimossi.
7
allertare gli utenti e da aggirare eventuali liste nere dei domini redatte da YouTube, la cui
efficacia viene ulteriormente ridotta dalla possibilità di rigenerare rapidamente nuovi
URL.
La seconda è l’auto-interazione, ovvero la capacità di determinati SSBs di ri-
spondere ai commenti generati da altri SSBs, aumentandone le interazioni per permettere
al commento di raggiungere posizioni migliori e aiutandoli ad apparire come utenti legit-
timi. È interessante notare come l’analisi dei domini dei SSBs che adottavano questa stra-
tegia abbia rivelato che essa non coinvolge mai SSBs appartenenti a campagne diverse,
osservazione che suggerisce una forte competizione tra esse.
L'analisi dei grafi in figura mostra come il dominio ‘somini.ga’ sfrutti maggiormente que-
sta strategia: rispetto al secondo, il primo grafo è connesso e 10 volte più denso, sugge-
rendo un efficace coordinamento tra i SSBs di questa campagna che le permette di rag-
giungere frequentemente le prime posizioni nei commenti.
CONCLUSIONI
I SSBs mostrano comportamenti sofisticati, capaci di sfruttare l’algoritmo di You-
Tube per amplificare la diffusione di contenuti fraudolenti e aumentando così il rischio
per gli utenti. Dall’analisi condotta, lo studio ha evidenziato come l’uso di URL abbreviati
nei profili sia indice di attività sospette; per questo motivo, una maggiore collaborazione
tra YouTube e i servizi di abbreviazione potrebbe limitarne l’impatto. Inoltre, un monito-
raggio mirato dei primi 20 commenti sotto ciascun video, dove si posizionano più della
metà dei SSBs, renderebbe il controllo più efficace.
Figura 4: Grafi delle risposte dei SSBs del dominio ‘somini.ga’ (a) e degli altri
domini (b).
I nodi neri rappresentano i SSBs che hanno ricevuto una risposta da altri SSBs,
mentre quelli rossi i restanti SSBs (che quindi hanno risposto ad altri SSBs, ma
non hanno ricevuto risposta da altri SSBs).
Gli archi rappresentano un’interazione tra i SSBs.
8
Questo studio contribuisce nel gettare le fondamenta per la comprensione e la mi-
tigazione del fenomeno, con l’obiettivo di rafforzare la sicurezza degli utenti su YouTube;
tuttavia, l’evoluzione dei LLMs generativi potrebbe permettere a futuri SSBs di creare
commenti originali, rendendo inefficaci i metodi attuali e suggerendo la necessità di mi-
sure preventive per contrastare ulteriormente questo problema.
Bibliografia
Seung Ho Na, Sumin Cho, and Seungwon Shin. 2023. Evolving Bots: The New Genera-
tion of Comment Bots and their Underlying Scam Campaigns in YouTube. In Pro-
ceedings of the 2023 ACM on Internet Measurement Conference (IMC '23). As-
sociation for Computing Machinery, New York, NY, USA, 297–312.
https://doi.org/10.1145/3618257.3624822