A B Testing A Systematic Literature Review.pdf

FaliqHusnan 10 views 46 slides Oct 10, 2024
Slide 1
Slide 1 of 46
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46

About This Presentation

this is a A/B testing literature review based on Social Media Do's


Slide Content

Pracetak diserahkan ke Elsevier 10 Agustus 2023
ÿPenulis korespondensi
Alamat email: [email protected] (Federico Quin), [email protected] (Danny Weyns),
[email protected] (Matthias Galster), [email protected] (Camila Costa Silva)
aDistrinet, KU Leuven, Celestijnenlaan 200A, Leuven, 3000, Belgia bLinnaeus
University, Universitetsplatsen 1, V¨axj¨o, 351 06, Swedia cUniversity of
Canterbury, 69 Creyke Road, Christchurch, 8140, Selandia Baru
arXiv:2308.04929v1 [cs.SE] 9 Agustus 2023
Pengujian A/B, juga disebut sebagai eksperimen terkontrol daring atau eksperimen berkelanjutan, adalah bentuk pengujian hipotesis di
mana dua varian perangkat lunak dibandingkan di lapangan dari sudut pandang pengguna akhir. Pengujian A/B digunakan secara luas
dalam praktik untuk memungkinkan pengambilan keputusan berbasis data untuk pengembangan perangkat lunak. Sementara beberapa
penelitian telah mengeksplorasi berbagai aspek penelitian tentang pengujian A/B, belum ada penelitian komprehensif yang dilakukan pada
keadaan terkini dalam pengujian A/B. Studi semacam itu sangat penting untuk memberikan gambaran sistematis tentang bidang pengujian
A/B yang mendorong penelitian di masa mendatang. Untuk mengatasi kesenjangan ini dan memberikan gambaran tentang keadaan terkini
dalam pengujian A/B, makalah ini melaporkan hasil tinjauan pustaka sistematis yang menganalisis 141 studi utama. Pertanyaan penelitian
difokuskan pada subjek pengujian A/B, bagaimana pengujian A/B dirancang dan dijalankan, peran apa yang dimiliki pemangku kepentingan
dalam proses ini, dan tantangan terbuka di area tersebut. Analisis data yang diekstraksi menunjukkan bahwa target utama pengujian A/B
adalah algoritme, elemen visual, serta alur kerja dan proses. Pengujian A/B klasik tunggal adalah jenis pengujian yang dominan, terutama
berdasarkan pengujian hipotesis. Pemangku kepentingan memiliki tiga peran utama dalam desain pengujian A/B: perancang konsep, arsitek
eksperimen, dan teknisi penyiapan. Jenis data utama yang dikumpulkan selama pelaksanaan pengujian A/B adalah data produk/sistem,
data yang berpusat pada pengguna, dan data spasio-temporal.
Penggunaan hasil pengujian yang dominan adalah pemilihan fitur, peluncuran fitur, pengembangan fitur berkelanjutan, dan desain pengujian
A/B berikutnya. Pemangku kepentingan memiliki dua peran utama selama pelaksanaan pengujian A/B: koordinator eksperimen dan penilai
eksperimen. Masalah terbuka utama yang dilaporkan terkait dengan peningkatan pendekatan yang diusulkan dan kegunaannya. Dari studi
kami, kami memperoleh tiga garis menarik untuk penelitian mendatang: memperkuat penerapan metode statistik dalam pengujian A/B,
meningkatkan proses pengujian A/B, dan meningkatkan otomatisasi pengujian A/B.
Kata kunci: Pengujian A/B, Tinjauan literatur sistematis, Rekayasa pengujian A/B
1. Pendahuluan
Camila Costa Silvac
Abstrak
Bahasa Indonesia:Federico Quina,ÿ , Danny Weynsa,b, Matthias Galsterc
Pengembangan perangkat lunak berulang dan waktu untuk memasarkan sangat krusial bagi keberhasilan perusahaan perangkat lunak.
Inti dari hal ini adalah inovasi dengan mengeksplorasi fitur perangkat lunak baru atau bereksperimen dengan perubahan perangkat lunak.
Untuk memungkinkan inovasi tersebut dalam praktik, perusahaan perangkat lunak sering menggunakan pengujian A/B [92, 58, 106, 71].
Pengujian A/B, juga disebut sebagai eksperimen terkontrol daring atau eksperimen berkelanjutan, adalah bentuk pengujian hipotesis di
mana dua varian perangkat lunak dievaluasi di lapangan (mulai dari varian dengan tata letak GUI yang sedikit diubah hingga varian
perangkat lunak dengan fitur baru). Secara khusus, manfaat dari kedua varian dianalisis menggunakan metrik seperti rasio klik pengunjung
situs web, nilai seumur hidup anggota (LTV) dalam layanan berlangganan, dan konversi pengguna dalam pemasaran [82, 161, 48].
Pengujian A/B secara luas
Pengujian A/B: Tinjauan Literatur Sistematis
Machine Translated by Google

2.1. Latar Belakang
Pengujian A/B merupakan metode yang membandingkan dua varian perangkat lunak, yang disebut sebagai varian A dan varian
B, dengan mengevaluasi keunggulan varian tersebut melalui paparan kepada pengguna akhir sistem [145]. Untuk membandingkan
varian tersebut, hipotesis dirumuskan bersama dengan eksperimen untuk mengujinya, yaitu pengujian A/B yang sebenarnya.
Secara tradisional, eksperimen terkontrol adalah metode empiris yang memungkinkan pengujian hipotesis secara sistematis [32].
Dua jenis variabel dibedakan dalam eksperimen terkontrol: variabel independen dan dependen. Variabel independen adalah variabel
yang dikontrol selama eksperimen untuk menguji hipotesis, misalnya, keadaan terkini dan pendekatan baru yang diusulkan untuk
memecahkan masalah desain tertentu oleh kelompok kontrol dan kelompok perlakuan. Variabel dependen adalah variabel yang
dikendalikan selama eksperimen untuk menguji hipotesis.
2. Latar belakang dan pekerjaan terkait
2.1.1. Eksperimen terkontrol vs pengujian A/B
Pada Bagian 5, kami mengulas hasil penelitian, melaporkan wawasan, menguraikan peluang untuk penelitian di masa mendatang,
dan menguraikan ancaman terhadap validitas. Terakhir, Bagian 6 menyimpulkan makalah.
Tahap ketiga pengujian A/B meliputi evaluasi eksperimen. Setelah pengujian A/B selesai, hipotesis awal diuji, biasanya dengan
uji statistik, seperti uji siswa atau uji t Welsh [75, 156]. Berdasarkan hasil pengujian, perancang kemudian dapat mengambil tindakan
lanjutan, misalnya memulai peluncuran fitur ke seluruh populasi atau merancang varian A/B baru untuk diuji dalam pengujian A/B
berikutnya.
Selama pelaksanaan, sistem melacak data yang relevan untuk mengevaluasi eksperimen setelah selesai (sesuai durasi yang
ditentukan). Data yang relevan dapat secara langsung sesuai dengan metrik A/B yang ditentukan, atau secara tidak langsung dapat
memungkinkan analisis lanjutan dalam tahap evaluasi untuk mendapatkan wawasan tambahan dari pengujian A/B yang dilakukan.
Sisa dari makalah ini disusun sebagai berikut. Bagian 2 memberikan pengantar singkat tentang pengujian A/B dan membahas
studi sekunder terkait. Di Bagian 3, kami menguraikan pertanyaan penelitian dan merangkum metodologi yang kami gunakan. Bagian
4 kemudian menyajikan hasil, dengan memberikan jawaban untuk setiap pertanyaan penelitian.
Kedua varian diterapkan dalam sistem langsung, dan sampel populasi dibagi di antara kedua varian.
Meskipun pengujian A/B umumnya digunakan dalam praktik, sejauh pengetahuan kami, belum ada studi komprehensif yang
didasarkan pada pengalaman nyata yang telah dilakukan pada state-of-the-art (yaitu, state-of-research yang kontras dengan state-of-
the-practice) dalam pengujian A/B. Studi semacam itu sangat penting untuk memberikan gambaran sistematis tentang bidang
pengujian A/B untuk mendorong penelitian di masa mendatang. Tiga studi sebelumnya [13, 12, 133] mengeksplorasi sejumlah aspek
penelitian tentang pengujian A/B, seperti topik penelitian, jenis eksperimen dalam pengujian A/B, dan perkakas serta metrik A/B.
Namun, studi-studi ini tidak memberikan gambaran komprehensif tentang state-of-the-art yang memberikan wawasan lebih dalam
tentang jenis target yang diterapkan pada pengujian A/B, peran pemangku kepentingan dalam desain pengujian A/B, pelaksanaan
pengujian, dan penggunaan hasil pengujian. Wawasan ini adalah kunci untuk memposisikan dan memahami pengujian A/B dalam
gambaran yang lebih luas tentang rekayasa perangkat lunak. Untuk mengatasi masalah ini, kami melakukan tinjauan pustaka
sistematis [84]. Studi kami bertujuan untuk memberikan wawasan tentang status penelitian dalam pengujian A/B sebagai dasar untuk
memandu penelitian di masa mendatang. Praktisi juga dapat memperoleh manfaat dari studi ini untuk mengidentifikasi potensi
peningkatan pengujian A/B dalam praktik sehari-hari mereka.
Metrik A/B digunakan untuk menentukan keunggulan setiap varian selama percobaan. Contoh metrik A/B meliputi rasio klik-tayang
(CTR), jumlah klik, dan jumlah sesi [47].
digunakan dalam praktik, termasuk perusahaan teknologi besar dan populer seperti Google, Meta, LinkedIn, dan Microsoft [77, 161,
104, 168].
Tahap kedua pengujian A/B terdiri dari pelaksanaan pengujian A/B dalam sistem perangkat lunak yang sedang berjalan.
Tahap pertama pengujian A/B menyangkut desain pengujian A/B. Dalam desain eksperimen ini, serangkaian parameter ditentukan,
seperti: hipotesis, sampel populasi yang menjadi target eksperimen, durasi eksperimen, dan metrik A/B yang dikumpulkan selama
eksperimen.
Berbeda dengan pengujian perangkat lunak biasa, pengujian A/B dilakukan dalam sistem langsung. Gambar 1 menunjukkan proses
umum pengujian A/B dengan tiga fase utama.
2
Machine Translated by Google

Eksperimen A/B
Eksperimen A/B
hipotesis (misalnya
dengan pengujian statistik)
Evaluasi
- Hipotesis
- Durasi
- Sampel populasi
- Metrik A/B
Hasil eksperimen
A/B
Ikuti terus
Penerapan
eksperimen A/B
Varian
perangkat lunak
-...
Perancang
Pengguna Akhir
Perancang
Hipotesa
Sistem Perangkat Lunak
A
B
B
Tahap evaluasi
eksperimen A/B
A
Tahap
pelaksanaan eksperimen A/B
Tahap desain
eksperimen A/B
Gambar 1: Proses pengujian A/B umum.
2.1.2. DevOps dan pengujian A/B
Operasi Pengembangan (disingkat DevOps) telah mendapatkan popularitas dalam beberapa tahun terakhir [35]. DevOps
terdiri dari serangkaian praktik, alat, dan pedoman untuk mengelola dan melaksanakan berbagai tugas secara efisien dan efektif
selama siklus hidup perangkat lunak. Hal ini berkisar dari proses pengembangan perangkat lunak hingga penerapan dan
pengelolaan perangkat lunak pada saat runtime. Otomatisasi proses perangkat lunak memainkan peran utama DevOps untuk
membuat hidup lebih mudah bagi pengembang dan meringankan beban pengembangan perangkat lunak secara umum.
Sementara eksperimen terkontrol biasanya dilakukan secara luring dalam pengaturan terkontrol, pengujian A/B menggunakan
eksperimen terkontrol untuk mengevaluasi fitur atau varian perangkat lunak pada pengguna akhir sistem yang sedang berjalan.
Karena alasan ini, pengujian A/B sering disebut sebagai eksperimen terkontrol daring [94, 59]. Tujuan pengujian A/B terletak pada
pengujian hipotesis dalam sistem perangkat lunak langsung di mana pengguna akhir sistem ini membentuk partisipan atau
populasi eksperimen. Contoh hipotesis yang diuji dalam pengujian A/B sering kali berkaitan dengan peningkatan pengalaman
pengguna (UX) [130], peningkatan desain antarmuka pengguna (UI) [158], peningkatan rasio klik pengguna [4], atau evaluasi
persyaratan nonfungsional dalam layanan terdistribusi [14].
diukur selama percobaan untuk membandingkan hasil dari kelompok kontrol dan kelompok perlakuan, misalnya, kerapatan
kesalahan dan produktivitas yang diperoleh dalam tugas desain. Setelah melakukan percobaan, hipotesis diuji dan kesimpulan
diambil berdasarkan hasil; misalnya, pendekatan desain yang baru diusulkan memiliki kerapatan kesalahan yang jauh lebih
rendah dibandingkan dengan pendekatan terkini, tetapi diperlukan penelitian lebih lanjut mengenai produktivitas. Eksperimen
terkontrol digunakan secara luas di semua jenis bidang ilmiah, seperti psikologi [31], farmasi [116], pendidikan [32], dan saat ini
juga dalam rekayasa perangkat lunak [142, 34, 68].
3
Praktik umum yang merupakan bagian dari leksikon DevOps adalah integrasi berkelanjutan dan penerapan berkelanjutan
(disingkat CICD) [80]. CICD terdiri dari otomatisasi pengujian perangkat lunak, integrasi dan pembangunan perangkat lunak, dan
penerapan perangkat lunak, yang secara efektif mengurangi tenaga kerja manual yang dibutuhkan oleh pengembang dan
meringankan beban penerapan perangkat lunak. Dalam nada yang sama, eksperimen berkelanjutan [172] bertujuan untuk terus
menyiapkan eksperimen dalam sistem perangkat lunak untuk menguji varian perangkat lunak baru. Dengan kata lain, eksperimen
berkelanjutan memperkaya proses pengembangan perangkat lunak dengan memungkinkan pendekatan pengembangan berbasis
data (misalnya, dengan mengukur kepuasan pengguna terhadap fitur perangkat lunak baru di awal pengembangan). Untuk
mencapai hal ini, pengujian A/B digunakan untuk menyiapkan dan mengevaluasi eksperimen terkontrol daring dalam sistem
perangkat lunak. Fabijan dkk. [58] misalnya melakukan studi kasus tentang evolusi peningkatan skala eksperimen berkelanjutan
di Microsoft, yang memberikan pedoman bagi perusahaan lain untuk melakukan eksperimen berkelanjutan.
Machine Translated by Google

Aspek teknis pengujian A/B. Rodriguez dkk. [132] melakukan studi pemetaan sistematis pada penerapan berkelanjutan layanan
dan produk perangkat lunak intensif. Penulis mengidentifikasi eksperimen berkelanjutan dan cepat sebagai salah satu faktor
yang mencirikan penerapan berkelanjutan, dan menguraikan hal ini melalui sudut pandang penerapan eksperimen ini dan
praktik DevOps yang terkait dengannya. Ros dan Runeson [133] mengajukan studi pemetaan pada eksperimen berkelanjutan
dan pengujian A/B. Penulis mengeksplorasi topik penelitian, organisasi yang menggunakan pengujian A/B, dan melihat lebih
dalam jenis eksperimen yang dilakukan. Auer dan Felderer [12] melakukan studi pemetaan sistematis pada eksperimen
berkelanjutan.
Para penulis memfokuskan pada topik penelitian, kontribusi, dan jenis penelitian, kolaborasi antara industri dan akademisi, tren
dalam publikasi, popularitas dalam publikasi tentang pengujian A/B, tempat, dan kutipan makalah. Baru-baru ini, Auer et al. [13]
menyajikan tinjauan pustaka sistematis tentang pengujian A/B dan eksperimen berkelanjutan, memanfaatkan hasil dari studi
pemetaan sebelumnya [133, 12]. Para penulis menerapkan forward snowballing pada serangkaian makalah untuk menyusun
daftar studi utama untuk tinjauan tersebut. Mereka kemudian mengeksplorasi konstituen inti dari kerangka kerja eksperimen
berkelanjutan, dan tantangan serta manfaat dari eksperimen berkelanjutan. Terkait erat, Erthal et al. [53] melakukan tinjauan
pustaka dengan menerapkan pencarian ad-hoc, diikuti dengan snowballing pada serangkaian makalah awal yang diidentifikasi.
Studi ini menekankan pada pendefinisian eksperimen berkelanjutan dan mengeksplorasi proses terkaitnya. Sementara para
penulis mengakui pengujian A/B sebagai salah satu strategi untuk mencapai eksperimen berkelanjutan, tinjauan pustaka ini
tidak menyelidiki aspek teknis pengujian A/B.
Aspek sosial pengujian A/B. Aspek sosial penting dari pengujian A/B adalah memperoleh umpan balik pengguna. Sebagian
besar pengujian A/B berkisar pada penentuan prioritas dan pengoptimalan pengalaman pengguna. Kami mengidentifikasi dua
studi yang berfokus pada aspek sosial ini. Fabijan dkk. [61] menyajikan tinjauan pustaka tentang umpan balik pelanggan dan
teknik pengumpulan data dalam konteks penelitian dan pengembangan perangkat lunak. Para penulis menyoroti teknik yang
ada dalam literatur untuk memperoleh umpan balik pelanggan dan mengatur pengumpulan data, di tahap pengembangan
perangkat lunak mana teknik tersebut digunakan, dan apa saja tantangan dan keterbatasan utama untuk teknik tersebut. Salah
satu teknik yang diuraikan oleh para penulis adalah pengujian A/B, yang dapat berfungsi sebagai alat yang berharga untuk
memperoleh umpan balik pengguna pada prototipe. Fabijan dkk. [62] membahas tantangan dan implikasi dari kurangnya
pembagian data pelanggan dalam organisasi besar. Satu kasus khusus yang disajikan oleh para penulis mendukung masalah
kritis yang muncul dari tidak dibagikannya umpan balik pelanggan kualitatif dalam tahap pra-pengembangan dengan tahap
pengembangan, yang memaksa pengembang untuk mengulang pengumpulan umpan balik pengguna atau mengembangkan
produk tanpa informasi ini.
Pengujian A/B dalam domain tertentu. Selain pengujian A/B di perusahaan berbasis internet, penggunaan pengujian A/B
dilaporkan dalam berbagai domain lainnya. Contohnya adalah domain sistem tertanam. Mattos dkk. [119] mengeksplorasi
tantangan dan strategi untuk eksperimen berkelanjutan dalam sistem tertanam, memberikan perspektif industri dan penelitian.
Domain lainnya adalah Sistem Siber-Fisik (CPS). Giaimo dkk. [69] menyajikan tinjauan pustaka sistematis tentang keadaan
terkini eksperimen berkelanjutan dalam CPS, menyimpulkan bahwa literatur lebih berfokus pada tantangan yang disajikan
daripada mengusulkan solusi untuk tantangan tersebut.
2.2.1. Ringkasan ulasan terkait.
Kami mengelompokkan studi terkait ke dalam tiga kelas: studi dengan fokus pada aspek teknis pengujian A/B, studi yang
berfokus pada aspek sosial pengujian A/B, dan studi yang berkaitan dengan pengujian A/B dalam domain tertentu.
Kami mulai dengan ringkasan studi sekunder yang terkait dengan studi yang disajikan dalam makalah ini. Kemudian kami
menunjukkan tujuan studi yang disajikan dalam makalah ini untuk memberikan gambaran sistematis tentang keadaan terkini
dalam pengujian A/B.
2.2. Penelitian sekunder terkait
4
Machine Translated by Google

kriteria dalam SLR, dan istilah “studi utama” untuk makalah penelitian yang kami pilih untuk ekstraksi data.
1Kami menggunakan istilah “makalah penelitian” untuk merujuk pada makalah yang kami pertimbangkan untuk penerapan inklusi dan eksklusi
Untuk mengatasi keterbatasan penelitian yang ada, kami melakukan studi literatur yang mendalam. Kami mendefinisikan tujuan penelitian
ini menggunakan pendekatan Goal Question Metric (GQM) [17]: Tujuan: Mempelajari dan
menganalisis Isu: Desain dan
pelaksanaan pengujian A/B Objek: Dalam sistem perangkat
lunak Sudut pandang: Dari sudut
pandang peneliti.
RQ 1: Apa subjek pengujian A/B?
5
Secara konkret, kami bertujuan untuk menyelidiki subjek pengujian A/B, bagaimana pengujian A/B dirancang dan dilaksanakan, dan apa peran
pemangku kepentingan dalam berbagai fase pengujian A/B. Terakhir, kami juga bertujuan untuk memperoleh wawasan dalam masalah
penelitian yang dilaporkan dalam literatur.
RQ 2: Bagaimana pengujian A/B dirancang? Apa peran pemangku kepentingan dalam proses ini?
RQ 3: Bagaimana pengujian A/B dilakukan dan dievaluasi dalam sistem? Apa peran pemangku kepentingan dalam hal ini?
3. Metodologi
Studi ini menggunakan metodologi telaah pustaka sistematis seperti yang dijelaskan dalam [84]. Metodologi ini menggambarkan proses
yang ketat untuk meninjau pustaka untuk topik yang diminati. Proses ini memastikan bahwa telaah tersebut mengidentifikasi, mengevaluasi,
dan menginterpretasikan semua makalah penelitian yang relevan dengan cara yang dapat direproduksi. Telaah pustaka terdiri dari tiga fase
utama: perencanaan, pelaksanaan, dan sintesis. Selama perencanaan, protokol ditetapkan untuk studi [129], yang mencakup motivasi untuk
studi, pertanyaan penelitian yang harus dijawab, sumber untuk mencari makalah, rangkaian pencarian, kriteria inklusi dan eksklusi, item data
yang akan diekstraksi dari studi primer1 dan metode analisis yang akan digunakan. Selama pelaksanaan, rangkaian pencarian diterapkan
seperti yang ditentukan dalam protokol, kriteria inklusi dan eksklusi diterapkan untuk mengidentifikasi studi primer, dan semua item data
diekstraksi dari makalah ini. Terakhir, selama sintesis, data yang diekstraksi dianalisis dan diinterpretasikan untuk menjawab pertanyaan
penelitian, dan untuk memperoleh wawasan yang berguna dari studi tersebut.
proses?
Bahasa Indonesia:
RQ 4: Apa saja masalah penelitian terbuka yang dilaporkan di bidang pengujian A/B?
Kami melakukan telaah pustaka sistematis dengan empat peneliti. Rincian lebih lanjut tentang proses telaah pustaka (misalnya peran
peneliti dalam telaah pustaka) dirangkum dalam bagian berikut. Deskripsi lengkap dengan protokol, semua data yang dikumpulkan, dan analisis
data tersedia di situs web penelitian [129].
Ringkasan. Studi sekunder yang ada meneliti pengujian A/B dengan fokus pada pelaksanaan pengujian, proses terkait, dan jenis eksperimen
yang dilakukan. Akan tetapi, studi-studi ini memiliki fokus tertentu, atau tidak memiliki proses pencarian yang ketat untuk mengidentifikasi studi
yang relevan. Studi-studi yang ada tidak memberikan wawasan yang cukup mengenai target pengujian A/B (yaitu, "apa" yang menjadi subjek
pengujian), peran pemangku kepentingan dalam merancang dan melaksanakan pengujian A/B, dan pemanfaatan hasil pengujian A/B.
3.1. Pertanyaan penelitian
Untuk mewujudkan tujuan dari penelitian ini (”Mempelajari dan menganalisis desain dan pelaksanaan pengujian A/B pada perangkat lunak
2.2.2. Tujuan penelitian.
sistem dari sudut pandang peneliti.”), kami mengajukan empat pertanyaan penelitian:
Machine Translated by Google

2Makalah yang diterbitkan dalam format Catatan Kuliah Ilmu Komputer dengan < 8 halaman juga dianggap pendek.
Dengan RQ3, kami menyelidiki bagaimana pengujian A/B dijalankan dalam sistem dan hasilnya dievaluasi. Lebih khusus lagi, kami
melihat cara pengumpulan data untuk evaluasi dalam pengujian, evaluasi pengujian A/B itu sendiri (menggunakan data yang dikumpulkan
dan, jika berlaku, hasil pengujian statistik), dan penggunaan hasil pengujian (misalnya, keputusan tentang pemilihan target, masukan untuk
pemeliharaan, pemicu untuk pengujian berikutnya dalam alur kerja).
IC2: Makalah yang mencakup penilaian pengujian A/B yang disajikan, baik dengan memberikan evaluasi melalui simulasi dengan data
buatan atau data lapangan, atau melalui menjalankan satu atau lebih eksperimen lapangan dalam sistem nyata;
6
Kami juga mengeksplorasi peran pemangku kepentingan selama proses pengujian A/B ini (misalnya, operator memutuskan kapan akan
menyelesaikan eksperimen).
IC3: Makalah ditulis dalam bahasa Inggris.
Kami mendefinisikan IC1 sedemikian rupa sehingga kami hanya menyertakan karya yang relevan dengan pertanyaan penelitian yang
diajukan, yaitu, penting bahwa karya tersebut berfokus pada pengujian A/B atau desain dan evaluasinya. Perhatikan bahwa IC1 menyertakan
makalah yang membahas dan menyajikan solusi untuk tantangan yang diketahui dalam pengujian A/B. IC2 memastikan bahwa hanya
makalah yang disertakan yang berisi data yang terkait dengan desain dan/atau pelaksanaan pengujian A/B. Terakhir, kami hanya
menyertakan makalah yang ditulis dalam bahasa Inggris dengan IC3.
Dengan RQ4, kami mengidentifikasi masalah penelitian terbuka di bidang pengujian A/B. Masalah tersebut dapat diperoleh dari deskripsi
keterbatasan pendekatan yang diusulkan dalam makalah yang ditinjau, tantangan terbuka, atau garis besar pekerjaan masa depan pada
pengujian A/B.
3.2. Kueri penelusuran
Pertama-tama kami mengidentifikasi daftar istilah relevan untuk pengujian A/B dari sejumlah publikasi yang diketahui [87, 73, 93, 92,
85, 47]. Kemudian kami mengidentifikasi dan menerapkan standar emas [178] untuk menyempurnakan istilah-istilah tersebut. Untuk deskripsi
terperinci tentang istilah-istilah relevan dan penerapan standar emas, kami merujuk pada protokol penelitian [129].
Selain kriteria inklusi di atas, kami juga menerapkan kriteria eksklusi berikut:
Gambar 2 (atas) menampilkan kueri penelusuran akhir setelah menerapkan standar emas.
EC1: Makalah yang melaporkan tinjauan literatur (sistematis), survei (menggunakan kuesioner), wawancara, dan
3.3. Strategi pencarian
makalah peta jalan;
Dengan RQ1, kami menyelidiki subjek pengujian A/B, yaitu (bagian dari) sistem yang menjadi sasaran penerapan pengujian A/B.
Contohnya meliputi pengujian A/B pada variabel program, fitur aplikasi, komponen perangkat lunak, subsistem, sistem itu sendiri, dan
infrastruktur yang digunakan oleh sistem. Kami juga menyelidiki domain tempat pengujian A/B digunakan.
Pencarian dilakukan pada bulan Oktober 2022. Pencarian diterapkan pada judul dan abstrak setiap makalah dalam sumber (tidak peka
huruf besar/kecil). Pencarian otomatis menghasilkan 3.944 makalah, seperti yang ditunjukkan pada Gambar 2. Setelah memfilter makalah
duplikat dan memilih hanya versi jurnal dari ekstensi versi konferensi, tersisa 2.379 makalah penelitian untuk diproses lebih lanjut.
3.4. Proses Pencarian
Setelah mengumpulkan makalah, kami menerapkan kriteria inklusi berikut:
EC2: Makalah pendek (ÿ 4 halaman)2 , demo, abstrak panjang, ceramah utama, dan tutorial;
Dengan RQ2, kami menyelidiki apa yang didefinisikan dan ditetapkan dalam pengujian A/B sebelum pengujian tersebut dijalankan
dalam sistem. Kami melihat metrik yang digunakan, apakah metode statistik digunakan dalam eksperimen dan jika ya, metode apa saja, dan
alat apa yang digunakan untuk melakukan eksperimen. Kami juga menyelidiki pemangku kepentingan mana yang terlibat dalam proses ini
dan apa peran mereka (misalnya, pengguna sistem yang memengaruhi pengujian yang harus diterapkan, atau arsitek yang memutuskan
pada populasi mana pengujian A/B harus dijalankan).
IC1: Makalah yang (1) memiliki fokus utama pada pengujian A/B (atau sinonimnya yang diketahui) atau (2) mendeskripsikan dan menerapkan
desain (baru) pengujian A/B; misalnya memperkenalkan bukti konsep;
Machine Translated by Google

Gambar 2: Studi utama yang dipilih untuk tinjauan literatur sistematis.
EC1, EC2, dan EC3 mengecualikan makalah yang tidak secara langsung memberikan kontribusi terhadap kemajuan teknis baru,
karya awal yang belum dikembangkan sepenuhnya, atau karya yang kualitasnya tidak memadai. Dalam tinjauan pustaka ini, kami berfokus
pada penelitian yang matang dan mutakhir di bidang pengujian A/B untuk menjawab pertanyaan penelitian. EC4 mengecualikan karya
yang tidak mengandung informasi penting untuk menjawab pertanyaan penelitian.
3.5. Item data
Untuk dapat menjawab pertanyaan penelitian, kami mengekstrak data-data yang tercantum dalam Tabel 1. Untuk setiap data, kami
menyediakan deskripsi terperinci.
D1-4: Penulis, tahun, judul, dan tempat yang digunakan untuk tujuan dokumentasi.
proses.
Makalah yang memenuhi semua kriteria inklusi dan tidak ada kriteria eksklusi yang disertakan sebagai studi primer dalam studi
literatur. Penerapan kriteria inklusi dan eksklusi pada judul dan abstrak makalah penelitian menghasilkan 279 makalah. Pembacaan
menyeluruh terhadap makalah tersebut selanjutnya mengurangi jumlah makalah menjadi 137. Selain makalah penelitian yang diambil
melalui string pencarian dan difilter dengan menerapkan kriteria inklusi/eksklusi, kami menerapkan snowballing pada karya yang dikutip
dari makalah ini untuk menangkap makalah yang mungkin terlewat. Dengan snowballing kami menemukan 4 makalah tambahan, sehingga
jumlah akhir studi primer menjadi 141, seperti yang ditunjukkan pada Gambar 2.
EC4: Makalah yang tidak memberikan atau hanya memberikan deskripsi singkat mengenai proses atau pelaksanaan desain pengujian A/B
EC3: Makalah dengan skor mutu ÿ 4 (dijelaskan dalam Bagian 3.5).
7
Ekstraksi + sintesis
dataBahasa Indonesia: IEEE
kriteria
Inklusi/Eksklusi
Tinjauan makalah
menyeluruh (seluruh teks
+ penilaian kualitas)
ACM
Pembersihan data dan
penyaringan duplikat
Bola saljuWiley
Bahasa Inggris Elsevier
3.944 orang
862
279
722
ATAU (("deploy*") DAN ("rasio klik" ATAU "rasio klik-tayang" ATAU "jumlah klik" ATAU "waktu absen" ATAU "jumlah sesi"
ATAU "jumlah kueri" ATAU "waktu untuk mengklik" ATAU "waktu sesi"))
2.379 tahun
Kueri
pencarian aplikasi
"Uji A?B*" ATAU "Eksperimen A?B*" ATAU "Eksperimen berkelanjutan*"
ATAU (("eksperimen daring*" ATAU "eksperimen terkontrol daring*" ATAU "eksperimen serentak*"
ATAU "eksperimen acak*") DAN BUKAN ("peserta?" ATAU "studi eksperimental*"))
141
2.343 orang
137
17
Machine Translated by Google

3Academic merujuk pada afiliasi yang memenuhi syarat untuk meluluskan mahasiswa magister dan/atau doktor.
Tabel 1: Data yang dikumpulkan untuk menjawab pertanyaan penelitian
RQ1
D16
RQ4
Tujuan
urutan pengujian A/B klasik, Urutan manual pengujian A/B multivariat, Urutan otomatis pengujian A/B
8
Judul
D5
(organisasi penelitian), Kontribusi dan hasil penelitian, Wawasan yang diperoleh, Keterbatasan. Setiap item
Metode statistik yang digunakan
algoritma, antarmuka pengguna, dan konfigurasi aplikasi. Pilihan lebih lanjut diturunkan selama
D12
Penggunaan hasil tes
Dokumentasi
D11: Metrik yang digunakan dalam pengujian A/B. Opsi awal meliputi Rasio klik, Rasio klik-tayang,
D6: Sektor penulis studi utama yang digunakan untuk dokumentasi (berdasarkan penulis)
PenulisD1
Jenis pengujian A/B
Dokumentasi
Data tambahan yang dikumpulkan
D8: Domain aplikasi yang digunakan terkait pengujian A/B dalam studi utama. Opsi awal
Item Data Pengenal
D17
Dokumentasi
D6
RQ2
dinilai berdasarkan skala tiga tingkat: deskripsi eksplisit (2 poin), deskripsi umum (1 poin), atau tidak ada deskripsi sama sekali.
pengumpulan data.
D13
RQ3
Skor kualitas
Jumlah klik, Jumlah sesi, Jumlah kueri, Waktu absen, Waktu klik, Waktu sesi.
afiliasi). Pilihannya meliputi Akademik penuh, Industri penuh, dan Campuran.3
D2
RQ2
Dokumentasi
termasuk E-commerce, Telekomunikasi, Otomotif, Keuangan, Robotika. Pilihan lebih lanjut dapat diturunkan
RQ3
D9
Jenis kertas
Peran pemangku kepentingan dalam desain eksperimen RQ2
Lokasi
deskripsi (0 poin). Oleh karena itu, skor kualitas didefinisikan pada skala 0 hingga 12 [113].
D7
D14
Dokumentasi
D10: Jenis pengujian A/B yang sesuai dengan jumlah varian A/B dan cara pengujiannya
Peran pemangku kepentingan dalam pelaksanaan eksperimen RQ3
Pilihan tambahan diperoleh selama pengumpulan data.
D3
Metrik yang digunakan
Tahun
D7: Skor kualitas untuk pelaporan penelitian [115]. Skor kualitas didefinisikan berdasarkan hal-hal berikut:
Metode evaluasi
selama pengumpulan data.
Dokumentasi
D10
D5: Jenis makalah. Pilihannya meliputi: makalah fokus (fokus pada pengujian A/B itu sendiri, yaitu modifikasi, saran, atau
penyempurnaan pada proses pengujian A/B), atau makalah terapan (aplikasi dan evaluasi
Sasaran A/B
pengujian A/B klasik, Urutan otomatis pengujian A/B multivarian. Opsi tambahan diturunkan
D8 Domain aplikasi
D15
diuji. Pilihan awal meliputi Pengujian A/B Tunggal (klasik), Pengujian A/B multivariat tunggal, Pengujian manual
Masalah terbuka
D4
Dokumentasi
item: Definisi masalah penelitian, Konteks masalah (kaitan dengan penelitian lain), Desain penelitian
RQ2
D9: Target pengujian A/B menjelaskan elemen yang menjadi subjek pengujian A/B. Opsi awal meliputi:
Sektor Penulis
D11
RQ3
RQ1
pengujian A/B dalam sistem perangkat lunak nyata).
selama pengumpulan data.
D18
Machine Translated by Google

4Kami membedakan data yang diperoleh dari evaluasi empiris dalam sistem langsung dari data yang diperoleh dari simulasi atau ilustrasi.
Tabel 2: Jenis makalah penelitian utama.
contoh untuk memberikan wawasan yang ditargetkan ke dalam pelaksanaan pengujian A/B selama analisis data SLR.
Terapan
D17: Peran pemangku kepentingan dalam proses pelaksanaan pengujian A/B. Pilihan awal meliputi perubahan pengujian
A/B (menyesuaikan pengujian A/B individual), pemicu pengujian A/B (memulai pengujian A/B berikutnya secara
manual), pengawasan pengujian A/B (memantau pelaksanaan pengujian A/B), Tidak terlibat, Tidak ditentukan.
memiliki campuran penulis industri dan akademis, dan 26 studi (18,4%) hanya berasal dari penulis akademis.
Fokus
D16: Penggunaan hasil pengujian yang dikumpulkan dari pengujian A/B. Contohnya meliputi Eksekusi pengujian A/B
berikutnya, Desain pengujian A/B berikutnya, Peluncuran fitur, Pengembangan fitur. Opsi lebih lanjut diperoleh
selama pengumpulan data.
pengujian atau menggunakannya untuk tujuan evaluasi, lihat Tabel 2.
Dari 141 studi utama, 90 (63,8%) berfokus pada pengujian A/B itu sendiri, sementara 51 (36,2%) menerapkan pengujian A/B.
kejadian
Simulasi, Evaluasi empiris.
9
D15: Metode evaluasi yang digunakan dalam studi primer4 . Pilihan awal meliputi Contoh ilustratif,
Jenis
Informasi demografis diekstraksi dari item data Jenis makalah (D5), Sektor penulis (D6), dan Skor kualitas (D7).
Kami mulai dengan informasi demografi tentang studi utama. Kemudian kami fokus pada masing-masing pertanyaan
penelitian.
Jumlah
D14: Data tambahan yang dikumpulkan selama pelaksanaan pengujian A/B (selain data metrik A/B langsung atau tidak
langsung). Contohnya meliputi lokasi geografis pengguna, jenis peramban, stempel waktu pemanggilan atau
permintaan. Opsi lebih lanjut diperoleh selama pengumpulan data.
4.1. Informasi demografi
Pilihan awal meliputi uji siswa, uji proporsional, dan tidak ada uji statistik. Pilihan lebih lanjut diperoleh selama
pengumpulan data.
D13: Peran pemangku kepentingan dalam desain eksperimen. Pilihan awal meliputi: Menentukan tujuan/hipotesis
pengujian A/B, Menentukan durasi pengujian A/B, Menyetel varian pengujian A/B. Pilihan lebih lanjut diperoleh
selama pengumpulan data.
4. Hasil
D18: Masalah terbuka yang dilaporkan. Masalah terbuka berasal dari tantangan, keterbatasan, dan ancaman terhadap
validitas yang dilaporkan. Pilihan diperoleh selama pengumpulan data.
D12: Metode statistik yang digunakan untuk mengevaluasi data yang diperoleh melalui pengujian A/B, jika ada.
Gambar 3 menunjukkan distribusi skor kualitas dengan rata-rata 8,81 [±1,58]. Hal ini menunjukkan bahwa pelaporan
penelitian dalam studi primer memiliki kualitas yang baik. Karena semua makalah melewati ambang batas 4, tidak ada
makalah yang harus dikecualikan untuk ekstraksi data guna menjawab pertanyaan penelitian.
90
51
Pilihan lebih lanjut diperoleh selama pengumpulan data.
Mayoritas dari 72 studi primer (51,1%) memiliki penulis industri, lihat Tabel 3. Empat puluh tiga studi (30,5%)
Machine Translated by Google

Akademik
Campur aduk
26
72
kejadian
Industri
Latar belakang
Jumlah
10
43
Tabel 3: Latar belakang penulis studi utama.
Gambar 3: Skor kualitas studi primer.
Machine Translated by Google

Jumlah
9
Domain aplikasi vs target A/B. Sekarang kita dapat memetakan domain aplikasi dengan target pengujian A/B. Analisis ini memberikan
wawasan tentang elemen atau komponen mana yang biasanya menjadi subjek pengujian A/B di domain tertentu, atau target A/B mana
yang masih belum dieksplorasi di domain tertentu.
perdagangan elektronik
8
Target A/B. Target pengujian A/B menunjukkan elemen yang menjadi subjek pengujian dan yang (setidaknya) dua variannya dibandingkan.
Tabel 5 mencantumkan target A/B yang kami identifikasi dari studi utama, dengan deskripsi dan contoh untuk masing-masing. Jumlah rata-
rata target A/B adalah 1,21 (120 studi utama menerapkan pengujian A/B pada satu elemen, 26 studi pada dua elemen, dan 24 studi pada
tiga elemen). Perhatikan bahwa studi dengan lebih dari satu target A/B biasanya menerapkannya dalam beberapa eksperimen. Target
pengujian A/B yang dominan adalah algoritme, elemen visual, dan alur kerja/proses yang bersama-sama membentuk 86,2% dari semua
target A/B yang dilaporkan dalam studi utama. Perlu dicatat, 32 studi utama tidak menentukan target A/B tertentu, misalnya menggunakan
kumpulan data dari dua pengujian A/B sebelumnya dalam evaluasi makalah tanpa mengklarifikasi detail pengujian ini [166].
Kami mengamati bahwa domain aplikasi yang paling populer adalah Web (38 kejadian). Contoh tipikal adalah platform media sosial, seperti
Facebook [109] atau LinkedIn [170], penerbit berita [175, 60], dan layanan multimedia, seperti streaming film di Netflix [9]. Domain terpopuler
kedua adalah mesin pencari (35 kejadian), dengan studi yang dilakukan di Yandex [46, 45], Bing [41, 112], Yahoo [6, 150], dan lain-lain.
Pengujian A/B juga diterapkan secara aktif dalam E-commerce (27 kejadian), dengan contoh dari raksasa ritel Amazon [52], industri mode
[26], dan bisnis C2C (konsumen-ke-konsumen), seperti Etsy [83] dan pasar Facebook [77]. Berikutnya kami mengamati penerapan
pengujian A/B dalam apa yang kami kelompokkan di bawah ”interaksi” (22 kejadian), dengan perangkat lunak komunikasi digital, seperti
Snap [167] dan Skype [60], interaksi pengguna-sistem operasi [74, 56], dan perangkat lunak aplikasi, seperti App store [33] dan permainan
seluler [173]. Terakhir, kami mencatat domain aplikasi keuangan (16 kejadian), termasuk studi di Yahoo Finance [179] dan Alipay [24],
transportasi (4 kejadian) misalnya di Didi Chuxing [66]. Domain lainnya adalah pendidikan (3 kejadian) [131] dan robotika (2 kejadian) [118],
antara lain.
4
Mesin pencari
16
Jaringan
Domain aplikasi. Tabel 4 mencantumkan domain aplikasi dari studi utama. Jumlah rata-rata domain adalah 1,13 (131 studi utama
menerapkan pengujian A/B dalam satu domain, tiga studi dalam dua domain, enam studi dalam tiga domain, dan satu studi dalam empat
domain). Sembilan studi tidak menyebutkan domain apa pun.
4.2. RQ1: Apa subjek pengujian A/B?
Domain aplikasi
22
Untuk menjawab pertanyaan penelitian ini, kami melihat item data berikut: Domain aplikasi (D8), dan target A/B (D9).
Interaksi
Keuangan
Tidak tersedia
Lainnya
38
35
27
Pengujian A/B algoritma diterapkan di seluruh domain aplikasi dan untuk semua domain utama, ini merupakan target utama pengujian
A/B. Algoritma yang umum diuji meliputi algoritma pemeringkatan feed untuk situs web media sosial, algoritma rekomendasi untuk
situs web berita/multimedia, algoritma pemeringkatan pencarian
11
kejadian
Angkutan
Tabel 6 menyajikan pemetaan ini. Kami menyoroti sejumlah pengamatan utama:
Tabel 4: Domain aplikasi yang diidentifikasi untuk pengujian A/B.
Machine Translated by Google

Versi terbaru dari suatu algoritma seperti algoritma rekomendasi
[175], algoritma pemeringkatan pencarian [86], atau algoritma
penyajian iklan [16].
Optimalisasi komponen perangkat lunak yang tidak terlihat
langsung oleh pengguna, seperti pengujian optimalisasi server
[127] atau penyesuaian parameter aplikasi untuk kinerja yang
lebih baik [60].
3
kejadian
28
Lainnya
6
Sasaran A/B
Alur kerja / proses
33
Jumlah
Fungsionalitas
aplikasi baru
Bagian belakang
Keterangan
Elemen visual
10
Algoritma 58
Target pengujian A/B tidak ditentukan dalam penelitian ini.
Kategori ini mencakup tiga target A/B lainnya: waktu dan
konten email yang berbeda [174], sumber daya pendidikan
yang berbeda yang disajikan kepada pengguna [131], dan
konfigurasi halaman situs web [157].
Perubahan pada alur kerja aplikasi, misalnya penambahan
tombol umpan balik ke dasbor [110], atau perubahan dalam
alur kerja pengguna, misalnya proses alat asisten virtual [96].
32
12
Perubahan pada komponen visual seperti pembaruan tata letak
situs web [22] atau pembaruan antarmuka pengguna umum
[40].
Fungsionalitas yang baru diperkenalkan, seperti widget baru
pada halaman web [28] atau konten tambahan yang disajikan
kepada pengguna setelah melakukan permintaan pencarian
[112].
Tidak ditentukan
Tabel 5: Target A/B yang teridentifikasi, beserta deskripsi.
Machine Translated by Google

Aplikasi
Sasaran A/B
domain
Tabel 6: Domain aplikasi × Target A/B
seperti kinerja server merupakan target populer bagi mesin pencari.
adalah pada algoritma dan alur kerja/proses, sedangkan fokus untuk mesin pencari adalah pada algoritma, visual
target A/B populer di domain Web dan e-commerce. Di sisi lain, fitur back-end
Lainnya
angka 0
2
hasil) [19].
angka 0
untuk mesin pencari, dan algoritma penyajian iklan baik di Web maupun aplikasi mesin pencari
Algoritma
Keuangan 7
mencatat tiga studi utama yang menargetkan alur kerja atau proses dalam pengujian A/B. Satu studi mengevaluasi
Mesin pencari
2
tidak mengidentifikasi makalah dalam domain e-commerce dan keuangan di mana pengujian A/B digunakan untuk back-end
angka 0
hasil mesin pencari [90] dan mengubah posisi iklan di halaman hasil [121].
6 16
17
17
10
5 angka 0
domain aplikasi seperti Web (hanya dengan 6 studi). Contoh tipikal termasuk perubahan warna font
elemen
1
dievaluasi di mesin pencari, dan berlawanan dengan intuisi tidak di e-commerce. Alur kerja dan proses
3
Untuk Web dan mesin pencari, semua jenis target A/B diterapkan. Fokus utama untuk Web
Bagian belakang
1
strategi [75], studi terakhir mengevaluasi opsi untuk membayar “pencarian bersponsor” (untuk memprioritaskan pencarian
2
2
contohnya adalah perubahan pada proses penentuan iklan dengan kinerja terbaik di JD
pengujian adalah algoritma, elemen visual, alur kerja dan proses, serta fitur back-end. Pengujian A/B
angka 0
2
8
3
7
angka 0
layanan mikro untuk peningkatan kinerja [147]. Di sisi lain, untuk mesin pencari, kami hanya
Jaringan
6
0
Pengujian A/B untuk optimasi back-end diidentifikasi sebagai yang paling umum untuk mesin pencari, sementara kami
Pengujian A/B elemen visual sangat populer untuk mesin pencari (16 studi) dibandingkan dengan pengujian lainnya
studi utama yang mengevaluasi perubahan pada antarmuka pengguna [103].
Lainnya
1
Visual
keuangan. Algoritma diuji secara konsisten di seluruh domain ini. Elemen visual sebagian besar
angka 0
kebijakan untuk platform pengiriman makanan sesuai permintaan [102].
1
Interaksi
target sangat populer untuk Web dan E-commerce (masing-masing dengan 8 dan 7 studi). Khas
Pertanyaan penelitian 1: Apa subjek pengujian A/B? Sasaran utama pengujian A/B
/ proses
2
2
target. Studi ini menargetkan konfigurasi layanan mikro yang berbeda dalam pengujian A/B untuk menyempurnakan
13
angka 0
1
fungsi
angka 0
angka 0
aplikasi.
domain.
Untuk e-commerce, kami melihat bahwa pengujian A/B terutama digunakan untuk menguji perubahan pada algoritma pemeringkatan dan
rekomendasi, dan pada proses seperti asisten virtual. Khususnya, kami hanya mengidentifikasi satu
Baru
Angkutan
1
umumnya diterapkan dalam domain Web, mesin pencari, e-commerce, perangkat lunak interaksi, dan
1
4
platform periklanan, pengecer online terbesar di Tiongkok [162], dan perubahan pada penugasan pesanan
perubahan kata-kata dalam iklan digital [18], satu studi mengevaluasi perubahan kata-kata dalam iklan
perdagangan elektronik
6
2
perubahan.
angka 0
Elemen alur kerja dan proses sebagai target A/B umumnya diterapkan di seluruh domain utama.
Alur kerja
3
elemen, dan back-end. Untuk Web, kami hanya melihat satu studi utama dengan back-end sebagai A/B
Machine Translated by Google

Untuk menjawab bagian pertama dari RQ2 (Bagaimana pengujian A/B dirancang?), kita akan melihat lebih dalam pada
desain pengujian A/B, dengan fokus pada jenis pengujian A/B, metrik A/B, dan metode statistik yang digunakan dalam pengujian A/B.
Jenis pengujian A/B. Jenis pengujian A/B meliputi pengujian A/B klasik tunggal dengan dua varian, pengujian A/B yang terdiri
dari lebih dari dua varian (disebut sebagai pengujian A/B multi-cabang), pengujian A/B multivarian tempat kombinasi elemen
diuji dalam satu pengujian A/B, dan urutan semua jenis ini. Gambar 4 menunjukkan frekuensi berbagai jenis pengujian A/B yang
diekstrak dari studi primer.
Secara keseluruhan, kami mengidentifikasi 155 kejadian tipe pengujian A/B, yaitu, rata-rata 1,13 kejadian per studi primer
(123 studi mempertimbangkan satu tipe pengujian A/B, 17 studi mempertimbangkan dua tipe, dan satu studi mempertimbangkan
tiga tipe pengujian). Mayoritas studi primer menggunakan pengujian A/B klasik tunggal dengan varian kontrol dan varian
perlakuan (95 kejadian). Pengujian standar ini digunakan untuk menguji berbagai target. Tipe pengujian A/B kedua yang paling
umum adalah pengujian A/B multi-lengan (30 kejadian). Tipe pengujian ini terdiri dari lebih dari dua varian yang diuji; misalnya
satu varian kontrol sebagai dasar dan tiga varian perlakuan dengan versi yang berbeda masing-masing. Pengujian ini umumnya
digunakan untuk mengevaluasi beberapa versi algoritma rekomendasi, misalnya, [141, 149], dan untuk menguji algoritma
penyajian iklan yang berbeda, misalnya, [155]. Tipe pengujian A/B ketiga yang paling umum adalah rangkaian pengujian A/B
klasik (24 kejadian). Contoh di sini termasuk perbandingan beberapa varian dalam gaya sekuensial yang dieksekusi secara
manual (sebagai lawan dari pengujian A/B multi-bersenjata di mana semua varian diterapkan secara bersamaan) [63], menguji
beberapa iterasi algoritma pembelajaran mesin secara berurutan secara manual [105], dan secara otomatis mengeksekusi
serangkaian pengujian A/B untuk menangani rilis fitur terkontrol di DevOps [139]. Jenis pengujian A/B terakhir yang diidentifikasi
adalah pengujian A/B multivariat (6 kejadian). Jenis pengujian ini mengevaluasi berbagai kombinasi beberapa
Untuk menjawab pertanyaan penelitian kedua, kami melihat item data berikut: Jenis pengujian A/B (D10), Metrik yang
digunakan (D11), Metode statistik yang digunakan (D12), dan Peran pemangku kepentingan dalam desain eksperimen (D13).
tes.
4.3.1. Desain pengujian A/B
4.3. RQ2: Bagaimana pengujian A/B dirancang? Apa peran pemangku kepentingan dalam proses ini?
14
Gambar 4: Jenis pengujian A/B yang teridentifikasi.
Machine Translated by Google

Metrik keterlibatan
17
225
82
64
50
34
21
kejadian
fitur. Berbeda dengan pengujian A/B multi-lengan, pengujian A/B multivarian memungkinkan pengujian varian lebih dari satu fitur dalam
pengujian A/B tunggal. Contohnya adalah perbandingan berbagai kombinasi elemen GUI yang berbeda [40].
Metrik umpan balik
Metrik A/B
Bahasa Indonesia:
Jumlah
Lihat metrik
Metrik kinerja
Metrik negatif
Metode statistik yang paling umum digunakan adalah uji hipotesis yang menguji kesetaraan (total 94 kejadian). Uji utama yang digunakan
dalam kelompok ini adalah uji-t student, misalnya [75, 71]. Uji lain dalam kelompok ini adalah uji Kolmogorov-Smirnov, misalnya [140], uji
Mann-Whitney, misalnya [137], dan uji peringkat bertanda Wilcoxon, misalnya [156]. Dari 94 kejadian uji hipotesis jenis ini, 37 studi primer
tidak melaporkan uji konkret yang digunakan dalam analisis hasil9 . Metode kedua yang paling umum digunakan adalah bootstrapping (11
kejadian). Metode ini membangun beberapa set data dengan mengambil sampel ulang set data asli [46]. Set data yang baru dibangun
kemudian biasanya digunakan untuk pengujian hipotesis kesetaraan. Manfaat utama dari teknik ini adalah peningkatan sensitivitas yang
diperoleh dalam analisis hasil. Namun, kelemahan besar dari teknik ini adalah komputasi yang mahal, terutama untuk set data yang lebih
besar [110]. Metode statistik ketiga yang paling umum digunakan adalah uji hipotesis yang menguji inferensi dan kebaikan kesesuaian
Metode statistik. Tabel 8 mengelompokkan jenis metode statistik yang digunakan untuk pengujian A/B dalam studi utama.
Metrik moneter
15
Klik metrik
Metrik A/B. Tabel 7 mencantumkan metrik A/B yang kami ekstrak dari studi primer. Secara total, 493 kejadian metrik A/B dilaporkan dalam
studi primer. Dengan total 198 eksperimen yang tersebar di 141 studi, ini memberikan rata-rata 2,12 metrik per eksperimen5 (berkisar dari
1 hingga 8 metrik per eksperimen). Kelompok metrik A/B yang paling umum adalah metrik keterlibatan (225 kejadian) yang merujuk pada
jumlah konversi6 jumlah sesi pengguna, waktu pengguna hadir di situs web, dan metrik yang terkait dengan penggunaan aplikasi atau
situs web (misalnya jumlah posting yang dinilai, jumlah pemesanan yang dilakukan).7 Kelompok terbesar kedua adalah metrik klik (82
kejadian). Contohnya termasuk jumlah klik, klik per kueri, dan rasio klik yang baik8 . Kelompok ketiga metrik A/B yang kami identifikasi
adalah metrik yang terkait dengan monetisasi, yaitu, pendapatan dan biaya (64 kejadian). Contohnya termasuk jumlah pembelian, nilai
pesanan, pendapatan per pembukaan email, dan biaya iklan. Kelompok berikutnya adalah metrik kinerja (50 kejadian). Contohnya
termasuk waktu respons sederhana dari suatu aplikasi, bandwidth yang digunakan, latensi ujung ke ujung, atau penundaan pemutaran
audio. Kelompok yang tersisa adalah metrik yang melacak efek yang tidak diinginkan dalam pengujian A/B (34 kejadian, misalnya tingkat
pembatalan atau jumlah pembatalan langganan), tampilan (21 kejadian, misalnya jumlah tampilan halaman atau jumlah tampilan produk),
dan umpan balik pengguna (17 kejadian, misalnya jumlah keluhan pelanggan atau umpan balik kata demi kata).
Konversi 6A adalah tindakan yang diinginkan yang diambil dalam pengujian A/B.
7Perlu dicatat bahwa beberapa studi utama tidak secara eksplisit menentukan metrik A/B karena sensitivitas bisnis. Berdasarkan
5Kami mengecualikan eksperimen dan metrik terkait dari studi utama yang menganalisis sejumlah besar pengujian A/B yang dilakukan sebelumnya.
Tabel 7: Metrik A/B yang teridentifikasi.
informasi yang tersedia dalam penelitian ini, kami telah memasukkannya dalam metrik keterlibatan umum.
8Klik yang baik digambarkan sebagai klik yang bermakna selama sesi pencarian [20].
9Akan tetapi, penelitian ini melaporkan nilai-p di samping hasil, atau secara eksplisit merujuk pada interval kepercayaan dan hasil pengujian A/B
yang signifikan secara statistik.
Machine Translated by Google

Hipotesis - Independensi 5
(keduanya 8 kejadian). Contoh uji hipotesis inferensi meliputi penggunaan pendekatan analisis Bayesian untuk memastikan
beberapa eksperimen yang berjalan secara bersamaan tidak saling mengganggu [89], dan pendekatan Bayesian untuk
menyimpulkan efek kausal dari kampanye iklan yang berjalan [15]. Contoh metode kesesuaian mencakup metode pengujian
berurutan yang didasarkan pada uji rasio kemungkinan [83], dan uji Wald [81]. Kelompok yang tersisa adalah metode koreksi
(7 kejadian) dengan misalnya koreksi Bonferroni [177]; estimator khusus untuk observasi dalam pengujian A/B (6 kejadian),
misalnya, estimator yang memperhitungkan varians [109]; uji hipotesis untuk independensi (5 kejadian), yang berisi uji ÿ [150];
dan metode regresi (2 kejadian), misalnya
Jenis pengujian A/B; dan metrik A/B yang digunakan dalam eksperimen versus metode statistik yang digunakan.
Tugas utama pemangku kepentingan di semua jenis pengujian A/B adalah merancang dan menyesuaikan varian,
menentukan durasi eksperimen, populasi, dan tujuan atau hipotesis. Angka-angka ini menegaskan bahwa ini adalah
tugas desain penting untuk setiap pengujian A/B.
Metode koreksi
Hipotesis - Inferensi
7
Peran pemangku kepentingan. Tabel 9 mencantumkan berbagai peran pemangku kepentingan dalam desain pengujian A/B
yang kami ekstrak dari studi utama, yang terkait dengan tugas, deskripsi, dan contoh. Kami mengidentifikasi tiga peran utama:
perancang konsep (127 kejadian), arsitek eksperimen (111 kejadian), dan teknisi penyiapan (31 kejadian). Peran perancang
konsep terdiri dari mengonseptualisasikan ide-ide baru untuk pengujian A/B. Peran arsitek eksperimen terdiri dari mengkalibrasi
parameter teknis eksperimen seperti durasi eksperimen. Peran teknisi penyiapan terdiri dari mengambil langkah-langkah yang
diperlukan untuk memungkinkan pelaksanaan pengujian A/B. Tugas utama perancang konsep adalah merancang dan menyetel
varian pengujian A/B (67 kejadian). Tugas utama arsitek eksperimen adalah menentukan durasi pengujian A/B (60 kejadian).
Terakhir, tugas utama teknisi penyiapan adalah melakukan aktivitas pascadesain pengujian A/B (25 kejadian).
Hipotesis - kesetaraan (metode konkret tidak ditentukan)
4.3.2. Peran pemangku kepentingan
11
kejadian
Metode regresi
CUPED [48].
Tugas pemangku kepentingan vs jenis pengujian A/B. Pemetaan tugas pemangku kepentingan dalam desain pengujian A/B di berbagai
jenis pengujian A/B ditunjukkan pada Tabel 10. Berikut ini adalah hal-hal yang kami amati:
Mayoritas studi yang menggunakan pengujian A/B multi-lengan dan rangkaian pengujian A/B melaporkan desain dan
penyetelan varian sebagai tugas pemangku kepentingan yang penting (masing-masing 22 dan 13 kejadian).
2
Kecocokan
6
4.3.3. Analisis silang desain pengujian A/B Kami
membahas dua pemetaan item data: Peran pemangku kepentingan dalam desain pengujian A/B versus peran pemangku kepentingan dalam desain pengujian A/B.
Jumlah
Penaksir
Bootstrap
8
8
Untuk membahas bagian kedua RQ2 (Apa peran pemangku kepentingan dalam desain pengujian A/B?), kami menganalisis
peran pemangku kepentingan dalam desain pengujian A/B.
Hipotesis - kesetaraan 57
37
16
Metode statistik yang digunakan
Tabel 8: Metode statistik yang digunakan selama pengujian A/B.
2
Machine Translated by Google

tes. Contohnya termasuk memberikan motivasi untuk
di mana efek jaringan harus diperhitungkan [102].
pengujian [179, 33], validasi desain pengujian A/B [110],
atau penjadwalan pelaksanaan
Tentukan tujuan atau
48
Tentukan populasi
hipotesis yang telah ditentukan sebelumnya untuk uji A/B [5].
pengujian itu sendiri. Contohnya termasuk spesifikasi
bagian dalam pengujian A/B. Contohnya termasuk
pembagian 50/50 sederhana dari semua pengguna [163],
sebuah penugasan di mana populasi target ditentukan
Desain dan varian penyetelan
Tentukan durasinya
Melakukan analisis metrik
dan inisialisasi
merancang varian A/B untuk jenis populasi yang berbeda
(misalnya, pengguna lama vs pengguna baru) [21].
untuk pengujian A/B. Contohnya adalah membuat metrik
utilitas A/B kustom dengan bobot negatif dan positif yang
dikaitkan dengan tindakan pengguna
Menentukan durasi pengujian A/B. Contohnya termasuk
memilih durasi eksperimen tetap (misalnya, 1 minggu) [5]
atau melalui tanggal kedaluwarsa yang eksplisit [106].
12
tindakan
Okt.
Pengujian A/B [157] atau melakukan pengujian A/B offline
Uji A/B [157].
hipotesa
Melakukan pra-desain
penugasan
17
Tindakan yang diambil setelah menyelesaikan desain
pengujian A/B. Contohnya termasuk melakukan pengujian
A/A sebelum menjalankan pengujian A/B.
dari tujuan untuk menemukan algoritma pemilihan berita
yang berkinerja lebih baik [50] atau spesifikasi
selama periode dua minggu [173], atau tugas
67
Peran Tugas
Tindakan yang dilakukan sebelum mendesain A/B
60
6
Memformulasikan tujuan atau hipotesis A/B
Menentukan populasi yang harus diambil
selama sesi pencarian [112].
25
Merancang dan menyempurnakan varian untuk pengujian.
Contohnya adalah menyempurnakan varian A/B [141], atau
sebelum pindah ke pengujian A/B online [72].
Menganalisis dan berpotensi menginisialisasi metrik
tindakan
51
Melakukan pasca desain
Deskripsi tugas
Tabel 9: Peran dan tugas pemangku kepentingan dalam desain pengujian A/B (Occ, kependekan dari jumlah kejadian).
Teknisi pengaturan (31)
Desainer konsep (127)
Arsitek percobaan (111)
Machine Translated by Google

Metrik
Tugas
Jenis pengujian (kejadian total)
Metode
Tabel 11: Metode statistik × Metrik A/B (H singkatan dari hipotesis)
Tabel 10: Tugas pemangku kepentingan × Jenis pengujian A/B
Metrik keterlibatan dan metrik klik digunakan di semua jenis metode statistik.
22
9
7
17
angka 0
1
31
24
9
5
5
4
4
2
1
pengujian (17 kejadian). Berbeda dengan pengujian A/B dua varian konvensional yang biasanya melibatkan
Klasik tunggal
angka 0
Karena jenis pengujian ini melibatkan beberapa varian yang diuji, penelitian sering kali menentukan rincian lebih lanjut
karena sensitivitas dalam pelaporan hasil untuk jenis metrik ini.
2
4
11
3
1
0
2
0
0
0
Tindakan pasca-desain lebih sering dilaporkan untuk rangkaian pengujian A/B (5 contoh). Misalnya,
Urutan
8
8
5
10
8
3
0
1
1
1
0
0
kinerja setiap varian.
Pengujian A/B (30)
12
angka 0
ditunjukkan pada Tabel 11.
33
45
37
27
2
Bootstrapping H -
inferensi Kesesuaian
Metode koreksi
Estimator H - independensi
Metode regresi
Menentukan tujuan atau hipotesis untuk pengujian A/B sering disebutkan untuk pengujian A/B multi-lengan
mengacu pada penyediaan rentang hasil pengujian A/B [152].
1
5
Pengujian A/B (6)
angka 0
menyebutkan metode pengujian hipotesis konkret (masing-masing 8 dan 11 kejadian). Ini mungkin
2
Engag. Klik Kinerja Negatif Moneter Lihat Umpan Balik
melibatkan lebih dari dua varian, sehingga praktisi sering merumuskan hipotesis mengenai potensi
angka 0
Bahasa Indonesia: 7 8 2 0 2 1 2 3 1
Multi-senjata
angka 0
Metrik A/B vs metode statistik yang digunakan. Metode statistik yang digunakan di berbagai jenis metrik A/B
Varian desain dan penyetelan Durasi
Penugasan
populasi Sasaran/hipotesis
Tindakan pasca-desain
Tindakan pra-desain Analisis
metrik/init.
1
2
menentukan kondisi keberhasilan pengujian A/B sebelum menjalankannya [151], dan studi lain
Multivariat
5
2
metrik A/B. Khususnya untuk metrik moneter dan kinerja, mayoritas studi tidak
angka 0
11
angka 0
13
varian kontrol dan varian yang diubah yang bertujuan untuk meningkatkan varian kontrol, pengujian A/B multi-bersenjata
Pengujian A/B (95)
1
14
12
2
1
1
1
1
2
1
4
1
Hanya beberapa studi utama yang melaporkan tindakan pra-desain dan analisis metrik serta inisialisasi, terlepas dari jenis pengujian A/B.
18
2
H - kesetaraan H -
kesetaraan (tidak ditentukan)
tentang varian dan alasan di balik pemilihan varian mana yang akan diuji.
7
5
1
0
0
0
1
1
1
satu studi utama menyebutkan pemodelan urutan pengujian A/B [139], studi lain menyebutkan
Pengujian A/B (24)
6
Metode konkret yang digunakan untuk pengujian hipotesis kesetaraan seringkali tidak ditentukan di semua jenis
Machine Translated by Google

Data yang dikumpulkan
Penggunaan metrik umpan balik juga tidak umum dan jika digunakan, metode statistik spesifik yang digunakan tidak dilaporkan
(5 kejadian).
19
kejadian
Pertanyaan penelitian 2: Bagaimana pengujian A/B dirancang? Apa peran pemangku kepentingan dalam proses ini? Jenis
utama pengujian A/B adalah pengujian A/B klasik tunggal, diikuti oleh pengujian A/B multi-cabang dan serangkaian
pengujian A/B. Metrik keterlibatan adalah jenis metrik A/B yang paling dominan yang digunakan dalam pengujian A/B.
Metrik A/B terkemuka lainnya termasuk metrik klik, moneter, dan kinerja.
Pengujian hipotesis untuk kesetaraan sejauh ini merupakan metode statistik yang paling umum digunakan dalam pengujian
A/B. Hebatnya, sekitar 40% dari penelitian yang menguji kesetaraan tidak menentukan metode konkret yang mereka
gunakan untuk itu. Pemangku kepentingan memiliki dua peran utama dalam desain pengujian A/B: perancang konsep dan
arsitektur eksperimen. Yang jarang dilaporkan adalah peran ketiga dari teknisi penyiapan.
Data produk/sistem
Data yang berpusat pada pengguna
4.4. RQ3: Bagaimana pengujian A/B dilakukan? Apa peran pemangku kepentingan dalam proses ini?
Data spasial-temporal
4.4.1. Eksekusi pengujian A/B Untuk
menjawab bagian pertama dari RQ3 (Bagaimana pengujian A/B dilakukan?), kami menganalisis data yang dikumpulkan selama pengujian.
Data sekunder
Pengujian A/B, metode evaluasi yang digunakan, dan penggunaan pengujian A/B.
Metrik negatif terutama digunakan untuk pengujian kesetaraan hipotesis (masing-masing 10 dan 8 kejadian untuk kesetaraan
hipotesis dan kesetaraan hipotesis tanpa metode yang ditentukan).
48
26
20
6
Data yang dikumpulkan. Tabel 12 mencantumkan kelas data yang dikumpulkan selama pelaksanaan pengujian A/B. Kami
mengidentifikasi empat jenis data. Data produk atau sistem paling sering dilaporkan dalam studi primer (48 kejadian). Kelas data ini
mencakup jenis peramban yang digunakan oleh pengguna akhir, sistem operasi pengguna akhir, informasi khusus perangkat keras
dari perangkat yang digunakan untuk berinteraksi dengan aplikasi, dan informasi umum yang terkait dengan penggunaan sistem
(misalnya informasi pelacakan tentang kategori item produk dalam aplikasi e-niaga, dan jenis kueri penelusuran yang diproses
selama pengujian A/B). Data yang paling populer kedua adalah data yang berpusat pada pengguna (26 kejadian). Kelas ini berisi
data yang terkait dengan cara pengguna akhir berinteraksi dengan sistem serta informasi pribadi pengguna akhir. Contohnya
termasuk karakteristik pengguliran pengguna pada aplikasi web, riwayat navigasi pengguna akhir, umpan balik pengguna, dan
penggunaan usia atau pekerjaan saat ini dari pengguna akhir selama analisis. Kelas ketiga yang paling sering dilaporkan adalah
data spasial-temporal (20 kejadian) yang mengelompokkan data yang terkait dengan lokasi geografis dan data terkait waktu.
Contohnya termasuk stempel waktu permintaan ke aplikasi, tanggal pembuatan akun yang ikut serta dalam pengujian A/B, dan
informasi spasial seperti negara dan wilayah pengguna akhir. Terakhir, beberapa studi utama melaporkan penggunaan data
sekunder (6 kejadian). Data dalam kelas ini sesuai dengan metrik A/B yang tidak berfungsi sebagai metrik evaluasi utama untuk
pengujian A/B. Contohnya adalah jumlah klik atau tampilan halaman yang digunakan untuk analisis tambahan setelah melakukan
pengujian A/B.
Jumlah
Metode hipotesis untuk independensi paling sering digunakan untuk metrik moneter, namun penggunaannya jarang (3 contoh).
Tabel 12: Data yang dikumpulkan untuk pengujian A/B.
Machine Translated by Google

Metode evaluasi
Metode evaluasi. Tabel 13 merangkum metode evaluasi yang diidentifikasi. Sebagian besar studi primer memberikan
hasil dari evaluasi empiris (100 kejadian), yaitu, menjalankan pengujian A/B dalam sistem langsung. Sejumlah besar studi
menggunakan data historis dari pengujian A/B yang dilakukan sebelumnya untuk mensimulasikan pengujian A/B baru (26
kejadian), sementara beberapa studi (15 kejadian) menggunakan simulasi tanpa data historis sebagai metode evaluasinya.
Terakhir, beberapa studi menggunakan contoh ilustratif (10 kejadian), studi kasus (5 kejadian), dan satu studi primer
memberikan evaluasi teoritis [121].
4.4.3. Analisis silang pelaksanaan uji A/B
Kami menelaah lebih dalam dua pemetaan item data yang terkait dengan pelaksanaan uji A/B: Penggunaan hasil
pengujian dengan tugas pemangku kepentingan dalam pelaksanaan uji A/B; dan metode evaluasi dengan tugas
pemangku kepentingan dalam pelaksanaan uji A/B.
Penggunaan hasil pengujian vs Tugas pemangku kepentingan dalam pelaksanaan pengujian A/B. Pemetaan pertama yang kami
analisis terkait dengan penggunaan hasil pengujian dan tugas yang dilakukan pemangku kepentingan dalam pelaksanaan pengujian
A/B. Hasilnya ditunjukkan pada Tabel 16. Kami menyoroti beberapa pengamatan utama:
kejadian
Penggunaan hasil pengujian. Tabel 14 mencantumkan penggunaan hasil pengujian yang diambil dari studi utama. Penggunaan
hasil pengujian mengacu pada apa yang dilakukan pemangku kepentingan dengan data dan analisis pengujian A/B yang
diperoleh, seperti menggunakan hasil untuk merancang pengujian A/B tambahan. Seperti yang ditunjukkan tabel, penggunaan
utama hasil pengujian A/B adalah pemilihan dan peluncuran fitur (masing-masing 71 dan 24 kejadian). Sejumlah studi bertujuan
untuk memvalidasi efektivitas proses pengujian A/B itu sendiri (12 kejadian). Penggunaan hasil pengujian untuk memicu
pengujian A/B berikutnya tampaknya belum dieksplorasi dengan baik (4 kejadian).
Supervisi eksperimen diterapkan tanpa mempedulikan penggunaan hasil pengujian. Untuk peluncuran fitur sebagai
penggunaan hasil pengujian A/B, tugas supervisi eksperimen sering disebutkan. Supervisi memegang peranan penting
dalam konteks ini untuk memastikan bahwa peluncuran berlangsung tanpa risiko (yakni, tidak ada kerugian yang
ditimbulkan kepada pengguna) [165, 28].
20
1
100
26
15
10
5
Evaluasi empiris
4.4.2. Peran pemangku kepentingan
Simulasi berdasarkan data empiris nyata
Untuk menjawab bagian kedua dari RQ3 (Apa peran pemangku kepentingan dalam proses ini?), kami menganalisis
Simulasi
peran pemangku kepentingan dalam pelaksanaan pengujian A/B.
Studi kasus
Contoh ilustratif
Peran pemangku kepentingan. Tabel 15 mencantumkan berbagai peran pemangku kepentingan dalam pelaksanaan uji
A/B yang telah kami ekstrak dari studi utama dengan tugas terkait, deskripsi, dan contoh. Kami mengidentifikasi dua
peran utama: kontributor eksperimen (40 kejadian) dan penilai eksperimen (37 kejadian). Peran kontributor Eksperimen
terdiri dari pengelolaan pelaksanaan uji A/B. Peran penilai Eksperimen terdiri dari mengevaluasi hasil uji A/B dan
kemungkinan melakukan tindakan tambahan. Tugas utama kontributor eksperimen adalah supervisi eksperimen (19
kejadian). Tugas utama penilai eksperimen adalah pascaanalisis eksperimen (17 kejadian).
Jumlah
Teoretis
Tabel 13: Metode evaluasi yang digunakan dalam penelitian utama.
Machine Translated by Google

Lanjutkan
pengembangan fitur
Desain pengujian A/
B selanjutnya
Validasi efektivitas proses
pengujian A/B
4
Tidak ditentukan
Peluncuran fitur
Pemilihan fitur
Hasil pengujian A/B digunakan untuk mendeteksi potensi bug atau
memvalidasi perbaikan bug, misalnya menyelidiki masalah kualitas
data dalam pengujian A/B model ML untuk mengungkap potensi bug
[105].
5
Hasil pengujian A/B digunakan untuk menentukan apakah peluncuran
fitur harus dilanjutkan atau dihentikan, seperti yang diuraikan oleh
praktisi di Microsoft [165, 49].
10
Hasil pengujian A/B digunakan untuk menunjukkan efektivitas
pendekatan pengujian A/B yang baru diusulkan atau ditingkatkan oleh
penulis. Contohnya termasuk mengevaluasi kerangka kerja
kontrafaktual yang baru diusulkan untuk menjalankan pengujian A/B
sisi penjual di pasar dua sisi [77], dan validasi metodologi statistik baru
untuk pemantauan berkelanjutan pengujian A/B [82].
Terjadi.
17
12
Penggunaan hasil pengujian tidak dijelaskan secara rinci dalam
penelitian.
24
15
71
Hasil pengujian A/B digunakan untuk menjalankan pengujian A/B
berikutnya, misalnya menggunakan hasil pengujian A/B untuk secara
otomatis menentukan pengujian A/B berikutnya yang akan dijalankan
[151].
Eksekusi pengujian A/B
berikutnya
Keterangan
24
Hasil pengujian A/B digunakan sebagai pendorong untuk
pengembangan fitur lebih lanjut, misalnya penyempurnaan metrik A/B
yang baru diusulkan berdasarkan pola periodisitas setelah memperoleh
hasil yang menjanjikan [45], dan pengembangan lebih lanjut metode
personalisasi [6].
Pengujian A/B digunakan untuk memvalidasi pertanyaan penelitian
yang diajukan oleh penulis. Salah satu contohnya adalah menyelidiki
hipotesis dalam keadaan apa perusahaan harus membayar iklan di
mesin pencari [19].
Deteksi / perbaikan bug
Hasil pengujian A/B digunakan untuk menentukan varian mana yang
memberikan peningkatan pada aplikasi. Contohnya termasuk memilih
versi baru dari algoritma pemeringkatan [125, 28] atau algoritma
rekomendasi [65], dan memilih desain visual yang berbeda [8].
Hasil pengujian A/B digunakan untuk desain pengujian A/B di masa
mendatang, misalnya menyarankan varian A/B alternatif untuk diuji
dalam pengujian A/B di masa mendatang [96], dan merancang
pengujian A/B baru untuk menguji lebih lanjut kualitas model prediksi
metrik A/B10 [126].
Validasi pertanyaan
penelitian
21
Penggunaan hasil tes
Tabel 14: Penggunaan hasil pengujian yang dikumpulkan dari eksekusi pengujian A/B.
Machine Translated by Google

12
hasil yang mencurigakan [60], atau melakukan teknik
pengurangan bias pada data yang diambil dari
Memulai eksekusi A/B (berikutnya)
seperti mendokumentasikan temuan dan pembelajaran
Pengujian A/B [112], atau menggabungkan umpan balik pengguna
19
ketika data yang terkumpul sudah mencukupi [96], atau
menghentikan percobaan lebih awal ketika ditemukan
adanya bahaya [89].
hasil pengujian A/B. Contohnya termasuk memeriksa ulang
hasil dari pengujian yang dilakukan
13
22
Mengubah aspek pengujian A/B selama pelaksanaannya.
Contohnya termasuk menyesuaikan penugasan populasi
eksperimen [33], atau menyesuaikan varian A/B itu sendiri
[152].
17
7
Okt.
Penghentian percobaan
tes [165, 22].
dari melakukan pengujian A/B [144], menjalankan kembali
dalam analisis pengujian A/B [106].
Pengujian A/B [110].
Supervisi percobaan
Pengujian A/B [71], melakukan analisis lebih mendalam
Kategori ini mencakup beberapa tugas khusus,
Perubahan percobaan
Peran Tugas
Menghentikan pengujian A/B bila dianggap perlu. Contohnya
termasuk menghentikan pengujian A/B secara manual
Berbagai langkah yang dilakukan setelah menganalisis
Pemicu percobaan
Pemantauan dan tindak lanjut ketat terhadap pelaksanaan
pengujian A/B [151, 43].
9
Analisis pasca percobaan
Lainnya
Deskripsi tugas
Tabel 15: Peran yang diidentifikasi dan tugas konkret para pemangku kepentingan selama pelaksanaan pengujian A/B.
Penilai percobaan (37)
Kontributor percobaan (40)
Machine Translated by Google

1
3
0
ditunjukkan pada Tabel 17. Kami menyoroti sejumlah poin penting:
3
melakukan dalam pelaksanaan pengujian A/B. Kami berhipotesis bahwa, karena simulasi memungkinkan lebih banyak
(yaitu, tidak melakukan putaran iterasi tambahan). Dalam studi primer di mana hasil dari
4
kemungkinan bug dalam kode atau memastikan perbaikan bug efektif) [57], dan memicu eksperimen (yaitu meluncurkan
angka 0
Untuk metode simulasi berdasarkan data empiris nyata, tugas pasca analisis dilaporkan lebih lanjut
1
Analisis pasca
2
1
Untuk desain pengujian A/B berikutnya, tugas pemicu eksperimen sering disebutkan. Hal ini untuk
Satu-satunya tugas pemangku kepentingan yang dilaporkan untuk evaluasi teoritis adalah perubahan eksperimen (studi primer [121]).
2
3
Pemilihan fitur
Pengujian A/B digunakan untuk desain pengujian A/B berikutnya, tidak ada contoh yang diidentifikasi di mana pemangku kepentingan
cara terkontrol untuk melakukan pengujian A/B, tugas yang dilakukan pemangku kepentingan setelah merancang pengujian A/B
4
percobaan yang secara eksplisit dimaksudkan untuk memperbaiki bug yang diketahui pada aplikasi) [105].
1
lebih sering daripada tugas lainnya. Contohnya adalah mencari outlier dalam analisis hasil A/B
angka 0
1
23
diharapkan karena pengujian A/B yang baru dirancang juga perlu dijalankan. Selain itu, pengujian A/B
4
2
mengambil tugas melakukan analisis pasca terhadap hasil percobaan.
1
tidak relevan.
8
10
7
6
Peluncuran fitur
Lanjutan pengembangan fitur
angka 0
Metode evaluasi vs Tugas pemangku kepentingan dalam pelaksanaan pengujian A/B. Selain itu, kami menganalisis tugas-tugas
Pengawasan
4
1
2
pengujian, dan menggunakan eksperimen historis untuk mengkonfirmasi efektivitasnya [78].
penghentian juga sering disebutkan (misalnya, penghentian percobaan karena hasil yang buruk [76]).
1
6
6
5
5
Semua tugas yang dilakukan oleh pemangku kepentingan dalam pelaksanaan pengujian A/B banyak ditemui dalam kasus
1
11
3
Desain pengujian A/B
Nilai efektif Pengujian A/B Nilai
RQ Deteksi/
perbaikan bug Eksekusi
pengujian A/B
pemangku kepentingan melakukan selama pelaksanaan pengujian A/B di seluruh metode evaluasi. Pemetaan ini
Memicu Penghentian Perubahan
angka 0
Studi primer yang menggunakan simulasi sebagai metode evaluasi jarang menentukan tugas pemangku kepentingan
Tugas analisis pasca eksperimen biasanya hanya dilaporkan untuk eksperimen yang sudah selesai sepenuhnya
angka 0
8
6
Dalam kasus perbaikan dan deteksi bug, pemangku kepentingan biasanya mengawasi eksperimen (baik untuk mendeteksi
1
evaluasi empiris.
2
pengembangan fitur”, ”val. eff.” adalah kependekan dari ”validasi efektivitas”, dan ”val. RQ” adalah kependekan dari ”validasi
Tabel 16: Penggunaan hasil pengujian × Tugas pemangku kepentingan dalam pelaksanaan eksperimen (”cont. feature dev.” adalah singkatan dari ”continue”
pertanyaan penelitian”).
Menggunakan
Tugas
Machine Translated by Google

7
angka 0
Pertama, kami menetapkan tiga subkategori masalah terbuka yang terkait dengan evaluasi
Analisis pasca
kategori
Empiris
Emp.sim.
24
yang digunakan dalam pengujian A/B adalah evaluasi empiris, tetapi sejumlah penelitian relevan juga menggunakan simulasi.
6
Tabel 18 menyajikan kategorisasi masalah terbuka yang telah kami identifikasi dalam studi primer. Untuk setiap masalah
Otomatisasi proses
masalah terbuka pada penelitian utama.
Subkategori masalah terbuka
Terkait kualitas
peran pemangku kepentingan yang dilaporkan dalam pelaksanaan pengujian A/B adalah kontributor eksperimen (dengan eksperimen
Berikan analisis menyeluruh tentang pendekatan 16Evaluasi terkait
angka 0
kejadian
Contoh Simulasi
Ill. Studi Kasus
Teoritis
Hasil pengujian A/B terutama digunakan untuk pemilihan fitur, diikuti oleh peluncuran fitur, dan seterusnya.
angka 0
kategori kami merancang sub-kategori konkret dari masalah terbuka. Kami menguraikan setiap jenis masalah terbuka
Meningkatkan skalabilitas
Perluas evaluasi. Drutsa et al. [45] mengeksplorasi pola periodisitas dalam metrik keterlibatan pengguna, dan
Pertanyaan Penelitian 3: Bagaimana pengujian A/B dilakukan dalam sistem? Apa peran
Perluas evaluasi
penyelia percobaan sebagai tugas utama) dan penilai percobaan (dengan tugas utama pasca-analisis percobaan).
10
1
1
1
0
0
34
pengembangan fitur. Eksekusi pengujian A/B (Otomatis) berikutnya hanya digunakan secara marjinal.
21
14
2
1
2
0
0
angka 0
Meningkatkan penerapan
dengan contoh ilustrasi.
Pengawasan
pemangku kepentingan dalam proses ini? Jenis data utama yang dikumpulkan selama pelaksanaan pengujian A/B
Jumlah
pengaruh pada metrik keterlibatan dalam pengujian A/B. Selain itu, penulis mengajukan metrik A/B baru yang
4.5. RQ4: Apa saja masalah penelitian terbuka yang dilaporkan di bidang pengujian A/B?
Evaluasi terkait lainnya
10
0
0
2
0
1
pendekatan yang diusulkan: (1) perluasan evaluasi pendekatan yang disajikan dalam studi utama, (2)
Terkait proses
13
4
1
0
0 0
9
1
4.5.1. Masalah terbuka terkait evaluasi
Memicu Penghentian Perubahan Lainnya
Masalah terbuka
memperhitungkan pola periodisitas tersebut, sehingga menghasilkan analisis pengujian A/B yang lebih sensitif. Para penulis
berhubungan dengan produk/sistem, pengguna, dan aspek spasial-temporal. Metode evaluasi yang dominan
Tambahkan pedoman proses
6
1
0
2
0
0
Untuk menjawab pertanyaan penelitian 4, kami menganalisis hasil data item Masalah Terbuka (D18).
7
6
analisis yang lebih mendalam terhadap pendekatan yang disajikan dalam studi utama, dan (3) Evaluasi terkait lainnya
data empiris”, ”sakit.” kependekan dari ”illustratif”).
Tabel 17: Metode evaluasi × Tugas pemangku kepentingan dalam pelaksanaan pengujian (”emp. sim.” kependekan dari ”simulasi berdasarkan praktik nyata”).
Tabel 18: Daftar masalah terbuka yang teridentifikasi.
Metode
Tugas
Machine Translated by Google

4.5.2. Masalah terbuka terkait proses
Kedua, kami menetapkan dua subkategori masalah terbuka yang berhubungan dengan proses: (1) pedoman untuk
proses pengujian A/B, dan (2) otomatisasi aspek proses pengujian A/B.
Tambahkan pedoman proses. Dalam upaya untuk memberikan pedoman pengujian A/B yang lebih bernuansa dalam domain e-
commerce, Goswami et al. [71] membahas eksperimen terkontrol untuk membuat keputusan dalam konteks pencarian e-
commerce. Pertimbangan seperti bagaimana memprioritaskan proyek untuk pengujian A/B untuk pengecer yang lebih kecil dan bagaimana
Penulis mengajukan cara mengevaluasi algoritme rekomendasi dalam aplikasi e-dagang kecil baik luring maupun daring melalui
pengujian A/B. Pendekatan ini membandingkan hasil evaluasi luring algoritme rekomendasi dengan hasil pengujian A/B daring
algoritme. Selain itu, penulis kemudian menggunakan data ini untuk membangun model prediksi guna menentukan algoritme
rekomendasi yang menjanjikan secara lebih efektif karena pengetahuan yang diperoleh dari pengujian A/B daring. Sebagai
pekerjaan mendatang, penulis mencantumkan bahwa pekerjaan lebih lanjut diperlukan untuk memverifikasi kausalitas efek yang
diamati dalam analisis data pengujian A/B luring dan daring. Dalam studi utama lain yang ditulis oleh Madlberger dan Jizdny
[114], penulis melakukan analisis tentang dampak pemasaran media sosial terhadap rasio klik-tayang dan keterlibatan pelanggan.
Untuk mencapai hal ini, mereka menjalankan beberapa kampanye pemasaran media sosial menggunakan pengujian A/B,
mengevaluasi hipotesis yang terkait dengan dampak aspek visual dan konten iklan terhadap rasio klik pengguna akhir. Sebagai
penelitian masa depan, penulis melaporkan bahwa penyelidikan yang lebih komprehensif diperlukan untuk memastikan mengapa
beberapa hipotesis dalam penelitian ini ditolak.
Evaluasi terkait lainnya. Contoh masalah terbuka terkait evaluasi lainnya ditetapkan oleh Gruson et al. [72]. Penulis mengusulkan
metodologi berdasarkan analisis kontrafaktual untuk mengevaluasi algoritme rekomendasi, memanfaatkan evaluasi luring dan
evaluasi daring melalui pengujian A/B. Pendekatan tersebut meliputi pengujian A/B rekomendasi untuk sebagian kecil populasi,
dan menggunakan hasil pengujian ini untuk menghilangkan bias evaluasi luring dari algoritme rekomendasi berdasarkan data
historis. Mengenai masalah terbuka, penulis menyebutkan penjelajahan metrik tambahan untuk pendekatan tersebut, serta
potensi perbaikan yang dapat dilakukan pada estimator yang mereka gunakan dalam pendekatan tersebut. Contoh lain ditetapkan
oleh Ju et al. [83], yang menyajikan alternatif untuk pengujian A/B standar dengan uji hipotesis statis dengan mengajukan uji
sekuensial. Secara klasik dalam pengujian A/B, hipotesis pengujian diuji setelah waktu yang ditentukan dan kesimpulan dibuat
berdasarkan hasil akhir. Uji sekuensial yang diajukan oleh penulis tidak memiliki jumlah observasi yang telah ditentukan
sebelumnya, melainkan pada beberapa titik selama eksperimen, pengujian menentukan apakah hipotesis dapat diterima, ditolak,
atau jika diperlukan lebih banyak observasi. Untuk pekerjaan di masa mendatang, penulis ingin mendukung eksperimen A/B/n
dalam pendekatan mereka, serta memperluas prosedur untuk data yang mengikuti distribusi non-binomial. Dalam contoh terakhir,
Gui et al. [73] mempelajari cara menangani interferensi efek jaringan dalam hasil pengujian A/B. Salah satu asumsi mendasar
pengujian A/B adalah bahwa pengguna hanya terpengaruh oleh varian A/B yang ditugaskan kepada mereka. Namun, efek
jaringan dapat merusak asumsi ini karena interaksi antara pengguna dalam populasi. Penulis menunjukkan keberadaan efek
jaringan di LinkedIn, dan mengusulkan penaksir untuk efek perlakuan rata-rata yang juga memperhitungkan efek jaringan
potensial. Sebagai bagian dari penelitian di masa mendatang, penulis ingin menyelidiki cara meningkatkan pendekatan tersebut
sehingga dapat menangani lebih banyak fenomena kehidupan nyata.
Memberikan analisis pendekatan yang menyeluruh. Contoh kategori ini disebutkan oleh Peska dan Vojtas [126].
mengevaluasi metrik yang diusulkan pada data uji A/B historis dari Yandex, meskipun mereka menyatakan bahwa evaluasi lebih
lanjut dari pendekatan tersebut dapat dilakukan di domain yang berbeda seperti jejaring sosial, layanan email, dan layanan
hosting video/gambar. Dari sudut pandang yang sedikit berbeda, Barajas et al. [15] mengembangkan teknik untuk menentukan
efek kausal kampanye pemasaran pada pengguna, dengan memfokuskan pada kampanye itu sendiri daripada hanya berfokus
pada desain media iklan. Penulis mengajukan pedoman khusus tentang pengacakan dan penugasan pengguna ke kampanye
iklan, dan memberikan teknik untuk memperkirakan efek kausal yang dimiliki kampanye terhadap pengguna yang diuji. Sebagai
titik kerja di masa mendatang, penulis mengajukan pertanyaan evaluasi yang berbeda mengenai apa yang akan terjadi jika teknik
tersebut diterapkan pada seluruh populasi.
25
Machine Translated by Google

kemampuan pendekatan yang diusulkan, dan (2) meningkatkan penerapan pendekatan tersebut.
Meningkatkan skalabilitas. Salah satu contohnya disajikan oleh Zhao et al. [179]. Untuk memperoleh penjelasan kausal di balik hasil pengujian
A/B, penulis mengusulkan untuk melakukan segmentasi populasi, dan akibatnya menganalisis hasil pengujian A/B dalam segmen-segmen
individual. Untuk pekerjaan di masa mendatang, penulis menyebutkan pengembangan solusi yang lebih skalabel yang mengintegrasikan
pendekatan tersebut ke dalam platform eksperimen yang ada. Untuk menangani eksperimen daring khususnya untuk aplikasi cloud, Toslali et
al. [153] memperkenalkan Jackpot, sebuah sistem untuk eksperimen daring di cloud. Jackpot mendukung pengujian A/B multivariat dan
memastikan manajemen interaksi yang tepat dalam aplikasi cloud selama pelaksanaan pengujian A/B. Sebagai tempat untuk pekerjaan di
masa mendatang, penulis menyebutkan cara-cara untuk menangani skalabilitas terbatas dari eksperimen multivariat karena jumlah eksperimen
potensial meningkat secara eksponensial dengan jumlah elemen yang akan diuji.
Meningkatkan penerapan. Salah satu studi tersebut mengeksplorasi pengujian A/B dalam industri otomotif [111]. Studi tersebut
membahas masalah yang berkaitan dengan ukuran sampel terbatas yang diperoleh pengujian A/B karena terbatasnya sifat
partisipan yang dapat mengambil bagian dalam pengujian A/B dalam industri tersebut. Untuk mengatasi rintangan ini, penulis
memberikan panduan khusus untuk melakukan pengujian A/B dan menentukan penugasan pengguna ke varian kontrol atau
perlakuan dalam pengujian. Namun, satu batasan berkaitan dengan persyaratan data pra-eksperimental untuk memastikan
penugasan populasi yang seimbang antara kedua varian A/B. Dalam upaya untuk meningkatkan sensitivitas dalam pengujian A/B,
Liou dan Taylor [109] mengusulkan estimator baru untuk pengujian A/B yang memperhitungkan varians pengguna individu. Untuk
mewujudkan hal ini, data pra-eksperimen pengguna individu dianalisis dan varians dihitung. Untuk memvalidasi pendekatan
tersebut, sampel dari 100 pengujian A/B yang dilakukan sebelumnya dikumpulkan dan dianalisis menggunakan pendekatan baru.
Keterbatasan besar yang dicatat oleh penulis adalah bahwa "asumsi yang lebih kuat tentang homogenitas efek pengobatan"
diperlukan agar pendekatan tersebut tetap tidak bias.
Pertanyaan Penelitian 4: Apa saja masalah penelitian terbuka yang dilaporkan di bidang pengujian A/B? Masalah terbuka
yang paling sering dilaporkan terkait langsung dengan pendekatan yang diusulkan, khususnya peningkatan pendekatan,
perluasan pendekatan, dan penyediaan analisis menyeluruh.
4.5.3. Masalah terbuka terkait kualitas
Terakhir, kami menetapkan dua subkategori masalah terbuka yang berhubungan dengan kualitas: (1) peningkatan skalabilitas
Proses otomatis. Mattos dkk. [118] menyajikan langkah menuju eksperimen berkelanjutan otomatis. Penulis mengajukan kerangka
kerja arsitektur yang mengakomodasi eksekusi otomatis pengujian A/B dan pembuatan varian A/B otomatis. Untuk memvalidasi
kerangka kerja, pengujian A/B dilakukan dengan robot. Salah satu tantangan terbuka yang ditetapkan dalam penelitian ini mencakup
kemampuan untuk secara otomatis menghasilkan hipotesis untuk pengujian A/B berdasarkan data yang dikumpulkan. Duivesteijn
dkk. [49] menyajikan pengujian A&B, sebuah pendekatan yang memanfaatkan teknik penambangan model yang luar biasa untuk
menargetkan varian A/B ke subkelompok dalam populasi yang diuji. Berbeda dengan menerapkan varian pengujian A/B dengan
kinerja terbaik, penulis mengajukan untuk menjalankan kedua varian (jika sumber daya yang cukup tersedia) dan menargetkan
varian tertentu ke pengguna individu berdasarkan subkelompok yang disimpulkan. Salah satu jalan potensial untuk penelitian masa
depan terdiri dari pengembangan kerangka kerja yang akan memungkinkan personalisasi otomatis situs web yang didukung oleh
pengujian A/B.
untuk melakukan pengujian A/B selama waktu liburan masih menjadi pertanyaan terbuka. Sebuah studi utama yang berbeda yang
mencakup manfaat eksperimen terkontrol dalam skala besar disajikan oleh Fabijan et al. [57]. Dalam studi ini, penulis menyajikan
beberapa contoh pengujian A/B yang dilakukan, dan pelajaran yang didapat dari eksperimen tersebut. Salah satu masalah terbuka
yang tercantum dalam studi tersebut terkait dengan penyediaan "panduan untuk mendeteksi pola antara metrik terdepan dan
tertinggal".
Masalah terbuka lainnya yang jarang dilaporkan terkait dengan proses pengujian A/B, khususnya penambahan pedoman
untuk proses pengujian A/B, dan otomatisasi proses. Terakhir, sejumlah penelitian melaporkan masalah terbuka terkait
properti kualitas, khususnya peningkatan skalabilitas dan penerapan pendekatan yang diusulkan.
26
Machine Translated by Google

dipelajari oleh studi primer. Selanjutnya, kita melihat lingkungan dan alat yang digunakan untuk pengujian A/B. Kemudian kita
dari penelitian.
[179, 177, 152]
Jumlah
Perangkap dan tantangan pengujian A/B
147, 141, 173, 19, 26, 8, 114, 6, 122, 50, 97,
[110, 140, 90]
[1, 28, 127, 164, 23, 85, 47, 39, 44, 86, 40,
5. Diskusi
dari penelitian utama.
Fokus utama dari penelitian utama adalah penggunaan dan penerapan pengujian A/B sebagai alat evaluasi untuk
pola periodisitas dalam perilaku pengguna untuk meningkatkan pengujian A/B [45].
33, 70, 66, 52, 20, 174, 107, 63, 155, 150,
111, 71, 24, 153, 137, 96, 101, 25]
Di luar pengujian A/B standar
13
penelitian dan mengkategorikan penelitian utama berdasarkan 7 topik penelitian. Tabel 19 merangkum 7 topik tersebut.
Data pengujian A/B [44, 127, 164, 85], menyelidiki teknik pengujian berurutan untuk menghentikan pengujian A/B sesegera mungkin
Topik
17
126, 29, 118, 75, 49, 117, 30, 151]
51
melaporkan sejumlah peluang untuk penelitian di masa depan. Kami menyimpulkan dengan diskusi tentang ancaman terhadap validitas
5.1. Topik penelitian
pokok bahasan utama dari penelitian (misalnya evaluasi algoritma rekomendasi baru, desain ulang antarmuka,
5.1.2. Meningkatkan efisiensi pengujian A/B
27
45, 46, 109, 100, 83, 18, 78, 37, 64]
Studi primer
[89, 160, 58, 165, 81, 157, 76, 57, 56]
[144, 154, 106, 156, 108, 9, 131, 74, 21, 36,
Kerangka kerja dan platform eksperimen
20
Pada bagian ini, kami membahas sejumlah wawasan tambahan yang kami peroleh. Kami mulai dengan topik penelitian
5.1.1. Penerapan pengujian A/B
136, 125, 22, 124, 128, 159, 67, 3, 176]
[91, 88, 54, 60, 167, 42, 169, 120, 11, 41,
65, 163, 170, 27, 143, 2, 5, 135, 149, 7, 98,
Masalah pengujian A/B yang konkret
9
Perlu dicatat bahwa penelitian ini memiliki topik yang tumpang tindih. Kami akan menjelaskan secara singkat setiap kategori dan memberikan beberapa contoh
masuk akal [83, 86, 1], mengusulkan teknik untuk mendeteksi tes A/B yang tidak valid12 [28], dan menggunakan data tambahan seperti
[175, 123, 95, 102, 16, 15, 121, 171, 99, 148,
[138, 73, 168, 105, 146, 43, 162, 14, 103,
Selama ekstraksi data dari 141 studi utama, kami mencatat pokok bahasan umum dari studi utama
Meningkatkan efisiensi pengujian A/B
13
Topik ini adalah tentang peningkatan proses pengujian A/B dengan mengeksplorasi cara-cara meningkatkan sensitivitas dalam
Penerapan pengujian A/B
kejadian
[166, 38, 82, 48, 77, 79, 112, 134, 72, 139,
Pengujian A/B dalam skala besar
18
12Tidak valid mengacu pada eksperimen yang dirancang buruk atau salah tafsir terhadap hasil yang diperoleh dari eksperimen.
Tabel 19: Topik penelitian studi primer.
11Lihat target item data A/B di Bagian 4.2 untuk referensi spesifik.
dll11).
Machine Translated by Google

Lingkungan
5.1.3. Di luar pengujian A/B standar
Topik ini mencakup makalah yang menyajikan platform pengujian A/B [106, 152, 144], atau kerangka kerja yang berkaitan
dengan aspek-aspek yang terkait dengan proses pengujian A/B seperti kerangka kerja untuk mendeteksi kehilangan data dalam
pengujian A/B [74], kerangka kerja untuk desain pengujian A/B [36], atau kerangka kerja untuk personalisasi pengujian A/B [154].
5.1.7. Pengujian A/B dalam skala besar
kejadian
Topik ini membahas tentang teknik-teknik yang melampaui pengujian A/B standar, seperti penggunaan jenis-jenis metrik A/B
baru [166, 48, 112], penggunaan kontrafaktual dalam evaluasi pengujian A/B13 [77, 134], penyelidikan cara-cara mengotomatiskan
bagian-bagian dari proses pengujian A/B [139, 118, 117, 151], peningkatan atau perubahan proses pengujian A/A [79, 29], dan
penyelidikan cara-cara menggabungkan pengujian A/B offline dan online [72, 126].
Penelitian utama dalam topik ini berfokus pada pelaksanaan pengujian A/B dalam skala besar, misalnya pertimbangan untuk
melakukan pengujian A/B dalam skala besar [81, 157, 76], model proses atau pedoman untuk pengujian A/B dalam skala besar
[58, 165], atau solusi konkret yang dapat diskalakan seperti metode statistik yang dapat diskalakan untuk mengukur efek perlakuan
kuantil untuk metrik kinerja dalam pengujian A/B [160].
5.2. Lingkungan dan alat yang digunakan untuk pengujian A/B
5.1.4. Masalah pengujian A/B yang konkret
Topik ini mencakup studi tentang pengujian A/B di domain tertentu dan jenis pengujian A/B tertentu.
Selain topik penelitian yang dicakup dalam studi utama, kami juga menganalisis lingkungan dan alat yang digunakan untuk
mewujudkan pengujian A/B, lihat Tabel 20.
Sistem eksperimen internal
Jenis lingkungan yang paling sering disebutkan adalah sistem eksperimen internal untuk pengujian A/B (20 kejadian), misalnya
lingkungan khusus yang dikembangkan oleh perusahaan seperti Microsoft [105], Google [152], eBay [157], dan Etsy [83].
Lingkungan ini secara luas mendukung pelaksanaan pengujian A/B. Lebih jauh lagi, beberapa studi utama menggambarkan fitur
konkret dari sistem eksperimen untuk membantu merancang pengujian A/B, misalnya mengendalikan bias selama spesifikasi
pengujian A/B dalam Airbnb's Experimentation Reporting Framework [100]. Selanjutnya, kami mengamati alat penelitian dan
prototipe (13 kejadian). Contohnya termasuk
Alat penelitian atau prototipe
Contohnya termasuk pengujian A/B khususnya di domain e-commerce [96, 71], pengujian A/B jaringan atau pengujian A/B di pasar
[103, 73, 24], pengujian A/B di domain CPS dengan kembaran digital [43], atau pengujian A/B untuk aplikasi seluler [101, 168].
Alat pengujian A/B komersial
5.1.5. Jebakan dan tantangan pengujian A/B
Alat pengujian non-A/B komersial
Topik ini membahas tentang jebakan yang terkait dengan pelaksanaan pengujian A/B [54, 88, 42, 41], atau (tantangan yang berkaitan
dengan domain tertentu) yang terkait dengan pengujian A/B [169, 120, 110].
20
13
10
7
Survei pengguna
5.1.6. Kerangka kerja dan platform eksperimen
28
Jumlah
1
13Analisis kontrafaktual memberikan jawaban terhadap sebab dan akibat dari kelompok perlakuan dan hasil yang sesuai,
Tabel 20: Lingkungan dan alat yang digunakan untuk pengujian A/B.
dibandingkan dengan apa yang akan terjadi jika perawatan tidak diterapkan.
Machine Translated by Google

Jalan lain untuk penelitian di masa depan adalah tentang peningkatan sensitivitas dalam pengujian A/B dengan, misalnya,
menggabungkan berbagai teknik peningkatan sensitivitas seperti yang ditunjukkan oleh Drutsa et al. [44], memungkinkan prediksi
proaktif perilaku pengguna dalam pengujian A/B berdasarkan data historis [45], dan studi yang lebih mendalam tentang estimator
pengujian A/B untuk mencapai sensitivitas yang lebih baik seperti yang disebutkan oleh Poyarkov et al. [127].
Jalan terakhir untuk penelitian mendatang dalam meningkatkan proses pengujian A/B berkaitan dengan penyediaan panduan lebih
lanjut dan prinsip perancangan untuk memilih dan merekayasa metrik A/B. Kami menyoroti dua studi utama yang menyebutkan masalah
terbuka yang terkait dengan peluang ini: Kharitonov dkk. [85] mengemukakan pembelajaran kombinasi metrik A/B yang sensitif sebagai
masalah terbuka umum, dan Duan dkk. [48] membahas penyelidikan dinamika antara metrik pengganti dan metrik dasar yang sebenarnya.
5.3.2. Otomatisasi
Dalam upaya untuk membangun eksperimen berkelanjutan, beberapa penelitian mengemukakan langkah-langkah yang dapat diambil
perusahaan untuk mengembangkan budaya eksperimen, misalnya [58, 169, 55]. Mengingat perluasan budaya eksperimen ini, otomatisasi
(sebagian) dari proses pengujian A/B sangat penting untuk memungkinkan dan memberdayakan eksperimen berkelanjutan [28, 71].
Penelitian awal tentang otomatisasi langkah-langkah dalam pengujian A/B telah dilakukan, seperti yang disajikan oleh Tamburrelli et al
[151] dan Mattos et al. [118], lihat Bagian 5.1.3 dan 4.5.2. Namun, status penelitian saat ini dalam topik ini menunjukkan bahwa
penyelidikan lebih lanjut dan solusi yang lebih mendalam diperlukan untuk sepenuhnya memanfaatkan desain dan pelaksanaan pengujian
A/B yang otomatis. Selain itu, sejumlah masalah terbuka masih tetap ada yang dapat memfasilitasi dan memungkinkan eksperimen
otomatis, misalnya, menentukan pengujian A/B mana yang akan diprioritaskan saat dieksekusi [71], dan secara otomatis menghasilkan
wawasan yang terkait dengan alasan dan penyebab hasil eksperimen bagi pengembang eksperimen untuk memandu pengembangan
produk [169].
Secara konkret, kami menyediakan tiga lini penelitian: penelitian tentang peningkatan lebih lanjut proses umum pengujian A/B, penelitian
tentang otomatisasi aspek pengujian A/B, dan penelitian tentang adopsi metode statistik yang diusulkan dalam pengujian A/B.
5.3.1. Meningkatkan proses pengujian A/B Salah
satu arah masa depan terkait dengan pertimbangan saat menjalankan banyak pengujian A/B sekaligus [152]. Banyak penelitian yang
membahas topik ini, misalnya dengan membahas pelajaran yang didapat dari hasil pengujian A/B yang tidak diharapkan yang disebabkan
oleh pengujian A/B lain yang berjalan secara paralel [54], atau memeriksa secara manual kemungkinan efek dari menjalankan pengujian
A/B dengan menganalisis pengujian A/B yang diterapkan dalam sistem [157]. Namun, kami tidak menemukan penelitian yang mengajukan
pendekatan sistematis untuk mengatasi masalah ini.
5.3. Peluang penelitian dan arah penelitian masa depan Dari penelitian
kami, kami mengusulkan sejumlah arah penelitian masa depan yang potensial di bidang pengujian A/B.
Alat untuk melakukan eksperimen awan daring [153], prototipe penelitian untuk pengujian A/B yang diimplementasikan dalam NodeJS
[139], alat untuk pengujian A/B dengan asisten keputusan [96], dan alat yang memungkinkan eksekusi otomatis beberapa pengujian A/
B [151]. Lingkungan yang tersisa yang kami identifikasi adalah alat pengujian A/B komersial (10 kejadian), misalnya, Optimizely [122],
dan Google Analytics [22]; alat komersial yang tidak terkait dengan pengujian A/B (7 kejadian), misalnya, Crazy egg [22], alat pemetaan
panas yang digunakan untuk mendesain varian A/B, dan menggunakan Yahoo Gemini (platform iklan) untuk menguji berbagai strategi
iklan [114]; dan survei pengguna (1 kejadian) untuk menentukan varian A/B mana yang akan diuji dengan melakukan survei pendahuluan.
5.3.3. Adopsi dan penyesuaian metode statistik
29
Meskipun sejumlah studi utama membahas bootstrapping sebagai teknik untuk mengevaluasi hasil pengujian A/B [154, 2, 71],
bootstrapping sebagian besar masih belum dieksplorasi dalam pengujian A/B, meskipun faktanya metode statistik ini berpotensi untuk
meningkatkan analisis hasil pengujian A/B [81, 14]. Selain itu, bootstrapping dapat menyajikan alat yang sangat berharga untuk
memberikan wawasan statistik ke dalam hasil pengujian yang tidak dapat diperoleh dengan metode pengujian kesetaraan standar [51].
Namun, satu kelemahan besar bootstrapping adalah komputasi yang mahal [110]. Di samping adopsi metode statistik yang dikenal,
merancang dan menyesuaikan metode statistik baru untuk mengakomodasi skenario eksperimen tertentu menghadirkan arah penelitian
yang menarik. Salah satu contoh disebutkan oleh Kharitonov [86], yang mengemukakan
Machine Translated by Google

14Atau alternatifnya penyebutan eksplisit tentang kurangnya metode statistik yang digunakan.
5.4.1. Validitas internal
Validitas internal mengacu pada sejauh mana kesimpulan kausal berdasarkan suatu penelitian dapat dibenarkan. Salah
satu ancaman terhadap validitas internal adalah potensi bias peneliti yang melakukan SLR, yang dapat berdampak pada
pengumpulan data dan wawasan yang diperoleh dalam penelitian. Untuk mengurangi ancaman ini, kami melibatkan banyak
peneliti dalam penelitian ini. Banyak peneliti bertanggung jawab untuk memilih makalah, mengekstraksi data, dan menganalisis
hasil. Pada setiap langkah, pemeriksaan silang diterapkan untuk meminimalkan bias. Peneliti tambahan dilibatkan jika tidak
ditemukan konsensus. Selain itu, kami menetapkan protokol yang kaku untuk tinjauan pustaka sistematis.
5.4.2. Validitas eksternal
Validitas eksternal mengacu pada sejauh mana temuan penelitian dapat digeneralisasikan ke bidang umum pengujian A/B.
Ancaman terhadap validitas eksternal dari tinjauan pustaka sistematis ini adalah tidak semua karya yang relevan tercakup.
Untuk mengurangi ancaman ini, kami menelusuri semua sumber perpustakaan digital utama yang menerbitkan karya dalam
ilmu komputer. Kedua, kami mendefinisikan rangkaian penelusuran dengan menyertakan semua istilah yang umum digunakan
untuk pengujian A/B guna memastikan pengambilan karya yang relevan dengan tepat. Terakhir, kami juga menerapkan
snowballing pada makalah yang dipilih dari kueri penelusuran otomatis untuk mengungkap karya tambahan yang mungkin terlewat.
Selain sejumlah kecil studi primer yang menggunakan bootstrapping dalam analisis pengujian A/B, sejumlah besar studi
menyebutkan hasil atau nilai-p yang signifikan secara statistik dalam analisis pengujian A/B yang dilakukan tanpa menyebutkan
uji statistik konkret yang digunakan (37 kejadian). Selain itu, sejumlah besar studi tidak melaporkan apa pun yang terkait
dengan analisis statistik (47 kejadian). Kami berpendapat bahwa informasi ini penting untuk dilaporkan dalam publikasi
penelitian, dan mendesak penulis untuk menentukan metode statistik konkret yang digunakan14 untuk memperoleh hasil dalam
studi.
Pada bagian ini kami mencantumkan potensi ancaman terhadap validitas tinjauan literatur sistematis [10].
5.4. Ancaman terhadap validitas
merancang uji statistik khusus untuk metrik A/B non-binomial. Contoh lain menyangkut mempertimbangkan “dampak dari berbagai perlakuan dengan
berbagai metrik yang diminati” untuk menyesuaikan pendekatan yang disajikan oleh Tu et al. [154] untuk penugasan perlakuan optimal dalam
pengujian A/B dengan memanfaatkan estimasi efek kausal.
5.4.3. Kesimpulan Validitas
5.4.4. Keandalan
Keandalan mengacu pada sejauh mana karya ini dapat direproduksi jika penelitian dilakukan lagi. Untuk mengurangi
ancaman ini, kami menyediakan semua data yang dikumpulkan dan diproses secara daring. Kami juga menetapkan string
pencarian tertentu, daftar sumber daring, dan detail spesifik lainnya dalam protokol penelitian untuk memastikan reproduktifitas.
Bias peneliti juga menjadi ancaman di sini, yang memengaruhi kemungkinan hasil serupa diperoleh jika tinjauan pustaka
sistematis dilakukan lagi dengan sekelompok peninjau yang berbeda.
30
Validitas kesimpulan mengacu pada sejauh mana kami memperoleh ukuran yang tepat dan apakah kami menetapkan
cakupan yang tepat terkait dengan apa yang dianggap sebagai penelitian di bidang pengujian A/B. Salah satu ancaman
terhadap validitas kesimpulan adalah kualitas studi yang dipilih; studi dengan kualitas yang lebih rendah mungkin menghasilkan
wawasan yang tidak dapat dibenarkan atau tidak berlaku untuk bidang umum pengujian A/B. Untuk mengurangi ancaman ini,
kami mengecualikan makalah pendek, makalah demo, dan makalah peta jalan dari penelitian. Lebih lanjut, kami mengevaluasi
skor kualitas untuk setiap makalah yang dipilih. Makalah dengan skor kualitas ÿ 4 dikecualikan dari penelitian.
Machine Translated by Google

[3] Michal Aharon, Yohay Kaplan, Rina Levy, Oren Somekh, Ayelet Blanc, Neetai Eshel, Avi Shahar, Assaf Singer, dan Alex Zlotnik.
2019. Soft Frequency Capping untuk Peningkatan Prediksi Klik Iklan di Yahoo Gemini Native. Dalam Prosiding Konferensi
Internasional ACM ke-28 tentang Manajemen Informasi dan Pengetahuan (Beijing, Tiongkok) (CIKM '19).
[2] Deepak Agarwal, Bo Long, Jonathan Traupman, Doris Xin, dan Liang Zhang. 2014. LASER: Platform Prediksi Respons yang Dapat
Diskalakan untuk Periklanan Daring. Dalam Prosiding Konferensi Internasional ACM ke-7 tentang Penelusuran Web dan
Penambangan Data (New York, New York, AS) (WSDM '14). Asosiasi Mesin Komputasi, New York, NY, AS, 173–182. https://
doi.org/10.1145/2556195.2556252
[5] Luca Aiello, Ioannis Arapakis, Ricardo Baeza-Yates, Xiao Bai, Nicola Barbieri, Amin Mantrach, dan Fabrizio Silvestri.
Dengan memanfaatkan kategori dan pengamatan yang dilakukan selama analisis, kami menyediakan tiga lini utama peluang penelitian
yang menarik: mengembangkan solusi yang lebih mendalam untuk mengotomatiskan tahapan proses pengujian A/B; menyajikan berbagai
peningkatan pada proses pengujian A/B dengan memeriksa berbagai kemungkinan yang menjanjikan untuk peningkatan sensitivitas,
solusi sistematis untuk menangani gangguan dari banyak pengujian A/B yang berjalan sekaligus, dan menyediakan panduan serta prinsip
perancangan untuk memilih dan merekayasa metrik A/B; dan yang terakhir, adopsi dan penyesuaian metode statistik yang lebih canggih
seperti bootstrapping untuk lebih memperkuat analisis pengujian A/B.
Pengakuan
Kami berterima kasih kepada Michiel Provoost atas dukungannya terhadap penelitian ini.
31
Pengujian A/B paling sering digunakan untuk menentukan dan menerapkan varian A/B yang berkinerja lebih baik, atau untuk
meluncurkan fitur secara bertahap. Terakhir, kami merancang dua peran yang diambil oleh pemangku kepentingan dalam
pelaksanaan pengujian A/B: Kontributor eksperimen, dan Penilai eksperimen.
Kami mengidentifikasi tujuh kategori masalah terbuka: meningkatkan pendekatan yang diusulkan, memperluas evaluasi pendekatan
yang diusulkan, menyediakan analisis menyeluruh terhadap pendekatan yang diusulkan, menambahkan pedoman proses pengujian A/B,
mengotomatiskan proses pengujian A/B, meningkatkan skalabilitas, dan meningkatkan penerapan.
Pengujian A/B mendukung keputusan berdasarkan data tentang adopsi fitur. Pengujian ini digunakan secara luas di berbagai industri
dan perusahaan teknologi utama seperti Google, Meta, dan Microsoft. Dalam tinjauan pustaka sistematis ini, kami mengidentifikasi subjek
pengujian A/B, bagaimana pengujian A/B dirancang dan dijalankan, dan masalah penelitian terbuka yang dilaporkan dalam literatur. Kami
mengamati bahwa algoritme, elemen visual, dan perubahan pada alur kerja atau proses paling sering diuji, dengan web, mesin pencari,
dan e-commerce menjadi domain aplikasi paling populer untuk pengujian A/B. Mengenai desain pengujian A/B, pengujian A/B klasik
dengan dua varian paling umum digunakan, di samping metrik keterlibatan seperti rasio konversi atau jumlah tayangan sebagai metrik
untuk mengukur potensi varian A/B. Pengujian hipotesis untuk pengujian kesetaraan secara luas digunakan untuk menganalisis hasil
pengujian A/B, dan bootstrapping juga menarik minat dalam beberapa studi utama. Kami merancang tiga peran yang diambil oleh
pemangku kepentingan dalam desain pengujian A/B: Perancang konsep, Arsitek eksperimen, dan Teknisi penyiapan. Mengenai
pelaksanaan pengujian A/B, evaluasi empiris adalah metode evaluasi utama. Selain metrik A/B utama, data mengenai produk atau sistem,
dan data yang berpusat pada pengguna dikumpulkan paling banyak untuk melakukan analisis lebih mendalam terhadap hasil pengujian A/
B.
6. Kesimpulan
[1] Vineet Abhishek dan Shie Mannor. 2017. Uji Urutan Nonparametrik untuk Eksperimen Acak Daring. Dalam Prosiding Konferensi
Internasional ke-26 tentang World Wide Web Companion (Perth, Australia) (WWW '17 Comp-panion). Komite Pengarah Konferensi
World Wide Web Internasional, Republik dan Kanton Jenewa, CHE, 610–616. https://doi.org/10.1145/3041021.3054196
Referensi
2016. Peran Relevansi dalam Pencarian Bersponsor. Dalam Prosiding Konferensi Internasional ACM ke-25 tentang Manajemen
Informasi dan Pengetahuan (Indianapolis, Indiana, AS) (CIKM '16). Association for Computing Machinery, New York, NY, AS, 185–
194. https://doi.org/10.1145/2983323.2983840
Asosiasi Mesin Komputasi, New York, NY, AS, 2793–2801. https://doi.org/10.1145/3357384.3357801 [4] Michal Aharon, Oren
Somekh, Avi Shahar, Assaf Singer, Baruch Trayvas, Hadas Vogel, dan Dobri Dobrev. 2019. Pengoptimalan Iklan Carousel di Yahoo
Gemini Native. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-25 tentang Penemuan Pengetahuan & Penambangan
Data (Anchorage, AK, AS) (KDD '19). Asosiasi Mesin Komputasi, New York, NY, AS, 1993–2001. https://doi.org/
10.1145/3292500.3330740
Machine Translated by Google

Komite Pengarah Konferensi World Wide Web Internasional, Republik dan Kanton Jenewa, CHE, 108–118 . https://doi.org/
10.1145/2736277.2741082
[20] Fedor Borisyuk, Siddarth Malreddy, Jun Mei, Yiqun Liu, Xiaoyi Liu, Piyush Maheshwari, Anthony Bell, dan Kaushik Rangadurai. 2021.
VisRel: Pencarian Media dalam Skala Besar. Dalam Prosiding Konferensi ACM SIGKDD ke-27 tentang Penemuan Pengetahuan &
Penambangan Data (Acara Virtual, Singapura) (KDD '21). Asosiasi Mesin Komputasi, New York, NY, AS, 2584–2592. https://doi.org/
10.1145/3447548.3467081
1109/BigData.2017.8258096
[9] Xavier Amatriain. 2013. Melampaui Data: Dari Informasi Pengguna ke Nilai Bisnis melalui Rekomendasi yang Dipersonalisasi dan Ilmu
Konsumen. Dalam Prosiding Konferensi Internasional ACM ke-22 tentang Manajemen Informasi & Pengetahuan (San Francisco,
California, AS) (CIKM '13). Asosiasi Mesin Komputasi, New York, NY, AS, 2201–2208. https://doi.org/10.1145/2505515.2514701 [10]
Apostolos Ampatzoglou, Stamatia Bibi, Paris Avgeriou, Marijn
Verbeek, dan Alexander Chatzigeorgiou. 2019. Mengidentifikasi, mengkategorikan, dan memitigasi ancaman terhadap validitas dalam studi
sekunder rekayasa perangkat lunak. Teknologi Informasi dan Perangkat Lunak 106 (2019), 201–230. https://doi.org/10.1016/
j.infsof.2018.10.006
Pada Lokakarya Konferensi Internasional IEEE ke-11 tentang Penambangan Data tahun 2011. 733–740. https://doi.org/10.1109/ICDMW. 2011.19
Prosiding Asosiasi Ilmu dan Teknologi Informasi 53, 1 (2016), 1–10. https://doi.org/10.1002/pra2.2016.14505301040 arXiv:https://
asistdl.onlinelibrary.wiley.com/doi/pdf/10.1002/pra2.2016.14505301040 [23] Roman Budylin, Alexey Drutsa, Ilya Katsev, dan
Valeriya Tsoy. 2018. Transformasi Konsisten Metrik Rasio untuk Eksperimen Terkendali Daring yang Efisien. Dalam Prosiding Konferensi
Internasional ACM Kesebelas tentang Penelusuran Web dan Penambangan Data (Marina Del Rey, CA, AS) (WSDM '18). Asosiasi Mesin
Komputasi, New York, NY, AS, 55–63. https://doi.org/10.1145/3159652.3159699
[15] Joel Barajas, Jaimie Kwon, Ram Akella, Aaron Flores, Marius Holtan, dan Victor Andrei. 2012. Evaluasi Kampanye Pemasaran dalam
Iklan Display Bertarget. Dalam Prosiding Lokakarya Internasional Keenam tentang Penambangan Data untuk Iklan Daring dan Ekonomi
Internet (Beijing, Tiongkok) (ADKDD '12). Association for Computing Machinery, New York, NY, AS, Artikel 5, 7 halaman. https://doi.org/
10.1145/2351356.2351361
[11] Nirupama Appiktala, Miao Chen, Michael Natkovich, dan Joshua Walters. 2017. Mengungkap misteri materi gelap untuk eksperimen
daring. Dalam Konferensi Internasional IEEE 2017 tentang Big Data (Big Data). 1620–1626. https://doi.org/10.
[19] Tobias Blask, Burkhardt Funk, dan Reinhard Schulte. 2011. Haruskah perusahaan menawar merek mereka sendiri dalam pencarian
bersponsor?. Dalam Prosiding Konferensi Internasional tentang e-Bisnis. 1–8.
Dalam Rekayasa Web, Martin Gaedke, Michael Grossniklaus, dan Oscar D´ÿaz (Eds.). Springer Berlin Heidelberg, Berlin, Heidelberg,
370–378.
[25] Javier C´amara dan Alfred Kobsa. 2009. Memfasilitasi Pengujian Terkendali Perubahan Desain Situs Web: Pendekatan Sistematis.
[18] Tobias Blask. 2013. Menerapkan estimasi parameter Bayesian pada pengujian A/B dalam aplikasi e-bisnis yang menguji dampak sinyal pemasaran hijau dalam iklan pencarian
bersponsor. Dalam Konferensi Internasional tentang e-Bisnis (ICE-B) 2013. 1–8.
Wiley & Sons.
[8] Joana Almeida dan Beatriz Casais. 2022. Teknik Personalisasi Baris Subjek dan Pengaruhnya terhadap Rasio Pembukaan Email
Marketing. Dalam Sistem dan Teknologi Informasi, Alvaro Rocha, Hojjat Adeli, Gintautas Dzemyda, dan Fernando Moreira (Eds.).
Springer International Publishing, Cham, 532–540.
2021. LinkLouvain: Pengujian A/B Berbasis Link dan Aplikasinya pada Kampanye Pemasaran Daring. Dalam Sistem Basis Data untuk
Aplikasi Lanjutan, Christian S. Jensen, Ee-Peng Lim, De-Nian Yang, Wang-Chien Lee, Vincent S. Tseng, Vana Kalogeraki, Jen-Wei
Huang, dan Chih-Ya Shen (Eds.). Springer International Publishing, Cham, 499–510.
[16] Joel Barajas, Jaimie Kwon, Ram Akella, Aaron Flores, Marius Holtan, dan Victor Andrei. 2012. Mengukur Efek Dinamis Iklan Display
saat Tidak Ada Informasi Pelacakan Pengguna. Dalam Prosiding Lokakarya Internasional Keenam tentang Penambangan Data untuk
Iklan Online dan Ekonomi Internet (Beijing, Tiongkok) (ADKDD '12). Association for Computing Machinery, New York, NY, AS, Artikel
8, 9 halaman. https://doi.org/10.1145/2351356.2351364 [17] Victor R. Basili, Gianluigi Caldiera, dan Dieter H. Rombach. 1994.
Pendekatan Metrik Pertanyaan Sasaran. Vol. I. John
[7] Rafael Alfaro-Flores, Jos´e Salas-Bonilla, Loic Juillard, dan Juan Esquivel-Rodr´ÿguez. 2021. Peningkatan berbasis eksperimen dalam
Anotasi Pembelajaran Mesin Human-in-the-loop melalui pengujian A/B berbasis signifikansi. Dalam Konferensi Komputasi Amerika
Latin XLVII (CLEI) 2021. 1–9. https://doi.org/10.1109/CLEI53233.2021.9639977
[24] Tianchi Cai, Daxi Cheng, Chen Liang, Ziqi Liu, Lihong Gu, Huizhi Xie, Zhiqiang Zhang, Xiaodong Zeng, dan Jinjie Gu.
[22] Alex Brown, Binky Lush, dan Bernard J. Jansen. 2016. Analisis efisiensi piksel: Pendekatan analisis web kuantitatif.
[6] Ryuya Akase, Hiroto Kawabata, Akiomi Nishida, Yuki Tanaka, dan Tamaki Kaminaga. 2021. Ekspansi dan Pemeringkatan Entitas
Terkait Menggunakan Knowledge Graph. Dalam Sistem Kompleks, Cerdas, dan Intensif Perangkat Lunak, Leonard Barolli, Kangbin
Yim, dan Tomoya Enokido (Eds.). Springer International Publishing, Cham, 172–184.
Dalam Konferensi Euromicro ke-44 tentang Rekayasa Perangkat Lunak dan Aplikasi Lanjutan (SEAA) tahun 2018. IEEE Computer
Society, Los Alamitos, CA, AS, 335–344. https://doi.org/10.1109/SEAA.2018.00062 [13] Florian
Auer, Rasmus Ros, Lukas Kaltenbrunner, Per Runeson, dan Michael Felderer. 2021. Eksperimen terkontrol dalam eksperimen berkelanjutan:
Pengetahuan dan tantangan. Information and Software Technology 134 (2021), 106551. https://doi.org/10.1016/j.infsof.2021.106551
[14] Eytan Bakshy dan Eitan Frachtenberg. 2015. Desain
dan Analisis Eksperimen Pembandingan untuk Layanan Internet Terdistribusi. Dalam Prosiding Konferensi Internasional ke-24 tentang
World Wide Web (Florence, Italia) (WWW '15).
[12] F. Auer dan M. Felderer. 2018. Keadaan Penelitian Saat Ini tentang Eksperimen Berkelanjutan: Sebuah Studi Pemetaan Sistematis.
[21] Slava Borodovsky dan Saharon Rosset. 2011. Pengujian A/B di SweetIM: Pentingnya Analisis Statistik yang Tepat.
32
Machine Translated by Google

[34] Maya Daneva, Daniela Damian, Alessandro Marchetto, dan Oscar Pastor. 2014. Metodologi penelitian dan studi empiris dalam Rekayasa Persyaratan:
Sejauh mana kita telah melangkah? Jurnal Sistem dan Perangkat Lunak 95 (2014), 1–9. https://doi.org/10.1016/j.jss.2014.06.035
[36] Wagner S. De Souza, Fernando O. Pereira, Vanessa G. Albuquerque, Jorge Melegati, dan Eduardo Guerra. 2022. Model Kerangka Kerja untuk Mendukung
Pengujian A/B di Tingkat Kelas dan Komponen. Dalam Konferensi Tahunan Komputer, Perangkat Lunak, dan Aplikasi IEEE ke-46 (COMPSAC) tahun
2022. 860–865. https://doi.org/10.1109/COMPSAC54236.2022.00136 [37] Alex Deng. 2015. Pengujian Hipotesis Bayesian Dua Sampel Objektif untuk
Eksperimen Terkendali Daring. Dalam Prosiding Konferensi Internasional ke-24 tentang World Wide Web (Florence, Italia) (WWW '15 Companion). Asosiasi
Mesin Komputasi, New York, NY, AS, 923–928. https://doi.org/10.1145/2740908.2742563 [38] Alex Deng, Tianxi Li, dan Yu Guo. 2014. Inferensi Statistik
dalam Eksperimen Terkendali Daring Dua Tahap dengan Pemilihan dan Validasi Perlakuan. Dalam Prosiding Konferensi
Internasional ke-23 tentang World Wide Web (Seoul, Korea) (WWW '14). Asosiasi Mesin Komputasi, New York, NY, AS, 609–618. https://doi.org/10.1145/
Inf. Syst. 40, 2, Artikel 25 (November 2021), 29 halaman. https://doi.org/10.1145/3464303
[39] Alex Deng, Yicheng Li, Jiannan Lu, dan Vivek Ramamurthy. 2021. Tentang Inferensi Pasca-Seleksi dalam Pengujian A/B. Dalam Prosiding Konferensi ACM
SIGKDD ke-27 tentang Penemuan Pengetahuan & Penambangan Data (Acara Virtual, Singapura) (KDD '21). Asosiasi Mesin Komputasi, New York, NY,
AS, 2743–2752. https://doi.org/10.1145/
[28] Nanyu Chen, Min Liu, dan Ya Xu. 2019. Bagaimana Pengujian A/B Bisa Salah: Diagnosis Otomatis Eksperimen Online yang Tidak Valid. Dalam Prosiding
Konferensi Internasional ACM Kedua Belas tentang Penelusuran Web dan Penambangan Data (Melbourne VIC, Australia) (WSDM '19). Asosiasi Mesin
Komputasi, New York, NY, AS, 501–509. https://doi. org/10.1145/3289600.3291000
2566486.2568028
[29] Russell Chen, Miao Chen, Mahendrasinh Ramsinh Jadav, Joonsuk Bae, dan Don Matheson. 2017. Eksperimen daring yang lebih cepat dengan
menghilangkan validasi A/A tradisional. Dalam Konferensi Internasional IEEE tentang Big Data (Big Data) 2017. 1635–1641. https://doi.org/10.1109/
BigData.2017.8258098
Dalam Prosiding Konferensi Internasional ACM Kesepuluh tentang Penelusuran Web dan Penambangan Data (Cambridge, Inggris Raya) (WSDM '17).
Association for Computing Machinery, New York, NY, AS, 547–556 . https://doi.org/10.1145/3018661.3018700
[40] Drew Dimmery, Eytan Bakshy, dan Jasjeet Sekhon. 2019. Estimator Penyusutan dalam Eksperimen Daring. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-25 tentang Penemuan
Pengetahuan & Penambangan Data (Anchorage, AK, AS) (KDD '19). Asosiasi Mesin Komputasi, New York, NY, AS, 2914–2922. https://doi.org/10.1145/3292500. 3330771
[41] Pavel Dmitriev, Brian Frasca, Somit Gupta, Ron Kohavi, dan Garnet Vaz. 2016. Perangkap eksperimen terkontrol online jangka panjang. Dalam Konferensi
Internasional IEEE 2016 tentang Big Data (Big Data). 1367–1376. https://doi.org/10.1109/ BigData.2016.7840744
[42] Pavel Dmitriev, Somit Gupta, Dong Woo Kim, dan Garnet Vaz. 2017. Selusin Kotor: Dua Belas Jebakan Interpretasi Metrik Umum dalam Eksperimen
Terkendali Daring. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-23 tentang Penemuan Pengetahuan dan Penambangan Data (Halifax, NS,
Kanada) (KDD '17). Asosiasi Mesin Komputasi, New York, NY, AS, 1427–1436. https://doi.org/10.1145/3097983.3098024
Dalam Prosiding Simposium ke-17 tentang Rekayasa Perangkat Lunak untuk Sistem Adaptif dan Pengelolaan Mandiri (Pittsburgh, Pennsylvania) (SEAMS
'22). Asosiasi Mesin Komputasi, New York, NY, AS, 132–143. https://doi.org/10.1145/3524844.3528057 [44] Alexey Drutsa, Gleb Gusev, dan Pavel
Serdyukov. 2015. Prediksi
Keterlibatan Pengguna di Masa Depan dan Aplikasinya untuk Meningkatkan Kepekaan Eksperimen Daring. Dalam Prosiding Konferensi Internasional ke -24
tentang World Wide Web (Florence, Italia) (WWW '15). Komite Pengarah Konferensi World Wide Web Internasional, Republik dan Kanton Jenewa, CHE,
256–266. https://doi.org/10.1145/2736277.2741116
3447548.3467129
[31] Rafael Costa, Elie Cheniaux, Pedro Rosaes, Marcele Carvalho, Rafael Freire, M´arcio Versiani, Bernard Range, dan Antonio Nardi. 2011. Efektivitas terapi
kelompok perilaku kognitif dalam menangani gangguan bipolar: Sebuah studi terkontrol acak. Revista brasileira de psiquiatria (S˜ao Paulo, Brasil: 1999) 33
(06 2011), 144–9. https://doi.org/ 10.1590/S1516-44462011000200009 [32] John Creswell dan Timothy Guetterman. 2018. Penelitian Pendidikan:
Perencanaan, Pelaksanaan, dan Evaluasi
Penelitian Kuantitatif dan Kualitatif, Edisi ke-6. Pearson, New York, NY, AS.
Lebih dari sekadar Peringkat Relevansi: Kerangka Kerja Pencocokan Grafik Umum untuk Pembelajaran Berorientasi Utilitas dalam Pemeringkatan. ACM Trans.
[35] Rico de Feijter, Rob van Vliet, Erik Jagroep, Sietse Overbeek, dan Sjaak Brinkkemper. 2017. Menuju penerapan DevOps dalam organisasi produk perangkat
lunak: Pendekatan model kematangan. Laporan Teknis. Universitas Utrecht.
[30] Emmanuelle Claeys, Pierre Gan¸carski, Myriam Maumy-Bertrand, dan Hubert Wassner. 2017. Pohon Regresi untuk Model Bandit dalam Pengujian A/B.
Dalam Kemajuan dalam Analisis Data Cerdas XVI, Niall Adams, Allan Tucker, dan David Weston (Eds.). Springer International Publishing, Cham, 52–62.
[33] Xinyi Dai, Yunjia Xi, Weinan Zhang, Qing Liu, Ruiming Tang, Xiuqiang He, Jiawei Hou, Jun Wang, dan Yong Yu 2021.
[27] Guangde Chen, Bee-Chung Chen, dan Deepak Agarwal. 2017. Optimalisasi Insentif Sosial di Jejaring Sosial Online.
[26] Samit Chakraborty, Md. Saiful Hoque, Naimur Rahman Jeem, Manik Chandra Biswas, Deepayan Bardhan, dan Edgar Lobaton. 2021. Sistem, Model, dan
Metode Rekomendasi Mode: Tinjauan. Informatika 8, 3 (2021) . https://doi.org/10.3390/informatics8030049
[43] J¨urgen Dobaj, Andreas Riel, Thomas Krug, Matthias Seidl, Georg Macher, dan Markus Egretzberger. 2022. Menuju DevOps Berbasis Digital Twin untuk
CPS yang Menyediakan Adaptasi & Verifikasi Layanan Berbasis Arsitektur saat Runtime.
33
Machine Translated by Google

3437963.3441737
[51] B. Efron dan RJ Tibshirani. 1994. Pengantar Bootstrap. CRC Press. https://books.google.be/books?
id=MWC1DwAAQBAJ
[54] Maria Esteller-Cucala, Vicenc Fernandez, dan Diego Villuendas. 2019. Jebakan Eksperimen yang Harus Dihindari dalam Pengujian A/B untuk
Personalisasi Daring. Dalam Publikasi Tambahan Konferensi ke-27 tentang Pemodelan Pengguna, Adaptasi, dan Personalisasi (Larnaca,
Siprus) (UMAP'19 Tambahan). Asosiasi Mesin Komputasi, New York, NY, AS, 153–159. https://doi.org/10.1145/3314183.3323853
[48] Weitao Duan, Shan Ba, dan Chunzhe Zhang. 2021. Eksperimen Daring dengan Metrik Pengganti: Pedoman dan Studi Kasus. Dalam Prosiding
Konferensi Internasional ACM ke-14 tentang Penelusuran Web dan Penambangan Data (Acara Virtual, Israel) (WSDM '21). Asosiasi Mesin
Komputasi, New York, NY, AS, 193–201. https://doi.org/10.1145/
[52] Beyza Ermis, Patrick Ernst, Yannik Stein, dan Giovanni Zappella. 2020. Belajar Memberi Peringkat dalam Model Berbasis Posisi dengan Umpan
Balik Bandit. Dalam Prosiding Konferensi Internasional ACM ke-29 tentang Manajemen Informasi & Pengetahuan (Acara Virtual, Irlandia)
(CIKM '20). Asosiasi Mesin Komputasi, New York, NY, AS, 2405–2412. https://doi.org/10.1145/3340531.3412723
[47] Alexey Drutsa, Anna Ufliand, dan Gleb Gusev. 2015. Aspek Praktis Sensitivitas dalam Eksperimen Daring dengan Metrik Keterlibatan Pengguna.
Dalam Prosiding Konferensi Internasional ACM ke-24 tentang Manajemen Informasi dan Pengetahuan (Melbourne, Australia) (CIKM '15).
Asosiasi Mesin Komputasi, New York, NY, AS, 763–772. https://doi.org/10.1145/2806416.2806496
[46] Alexey Drutsa, Gleb Gusev, dan Pavel Serdyukov. 2017. Menggunakan Efek Penundaan dalam Penanganan untuk Meningkatkan Sensitivitas
dan Mempertahankan Arah Metrik Keterlibatan dalam Eksperimen A/B. Dalam Prosiding Konferensi Internasional ke-26 tentang World Wide
Web (Perth, Australia) (WWW '17). Komite Pengarah Konferensi World Wide Web Internasional, Republik dan Kanton Jenewa, CHE, 1301–
1310. https://doi.org/10.1145/3038912.3052664
[55] Aleksander Fabijan, Benjamin Arai, Pavel Dmitriev, dan Lukas Vermeer. 2021. Dibutuhkan Roda Gila untuk Terbang: Memulai dan Menumbuhkan
Momentum Pengujian A/B dalam Skala Besar. Dalam Konferensi Euromicro ke-47 tentang Rekayasa Perangkat Lunak dan Aplikasi Lanjutan
(SEAA) tahun 2021. 109–118. https://doi.org/10.1109/SEAA53835.2021.00023
[57] Aleksander Fabijan, Pavel Dmitriev, Helena Holmstrom Olsson, dan Jan Bosch. 2017. Manfaat Eksperimen Terkendali dalam Skala Besar.
Dalam Konferensi Euromicro ke-43 tentang Rekayasa Perangkat Lunak dan Aplikasi Lanjutan (SEAA) tahun 2017. 18–26. https://doi.org/
10.1109/SEAA.2017.47
[58] Aleksander Fabijan, Pavel Dmitriev, Helena Holmstrom Olsson, dan Jan Bosch. 2017. Evolusi Eksperimen Berkelanjutan dalam Pengembangan
Produk Perangkat Lunak: Dari Data ke Organisasi Berbasis Data dalam Skala Besar. Dalam Prosiding Konferensi Internasional ke-39 tentang
Rekayasa Perangkat Lunak (Buenos Aires, Argentina) (ICSE '17). IEEE Press, Los Alamitos, CA, AS, 770–780. https://doi.org/10.1109/
ICSE.2017.76
2019. Mendiagnosis Ketidaksesuaian Rasio Sampel dalam Eksperimen Terkendali Daring: Taksonomi dan Aturan Praktis bagi Praktisi. Dalam
Prosiding Konferensi Internasional ACM SIGKDD ke-25 tentang Penemuan Pengetahuan & Penambangan Data (Anchorage, AK, AS) (KDD
'19). Association for Computing Machinery, New York, NY, AS, 2156–2164. https://doi.org/10.1145/3292500.3330722
Perangkat Lunak 37, 02 (Mar 2020), 60–67. https://doi.org/10.1109/MS.2018.2875842
[56] Aleksander Fabijan, Pavel Dmitriev, Colin McFarland, Lukas Vermeer, Helena Holmstrom Olsson, dan Jan Bosch. 2018. Pertumbuhan
eksperimen: Mengembangkan kemampuan pengujian A/B yang tepercaya di perusahaan perangkat lunak daring. Jurnal Perangkat Lunak:
Evolusi dan Proses 30, 12 (2018), e2113. https://doi.org/10.1002/smr.2113 arXiv:https://onlinelibrary.wiley.com/doi/pdf/10.1002/smr.2113
e2113 JSME-17-0210.R2.
[59] A. Fabijan, P. Dmitriev, H. Holmstrom Olsson, dan J. Bosch. 2020. Siklus Hidup Eksperimen Terkendali Online. IEEE
[53] Vladimir M. Erthal, Bruno P. de Souza, Paulo S´ergio M. dos Santos, dan Guilherme H. Travassos. 2022. Studi Literatur untuk Mengkarakterisasi
Eksperimen Berkelanjutan dalam Rekayasa Perangkat Lunak. CIbSE 2022 - Konferensi Ibero-Amerika XXV tentang Rekayasa Perangkat
Lunak (2022). https://www.scopus.com/inward/record.uri?eid=2-s2.0-85137064966& partnerID=40&md5=04240b73ab90eb841083173be558b33f
Dikutip oleh: 0.
[50] Joshua Eckroth dan Eric Schoen. 2019. Algoritma genetik untuk menemukan sekumpulan berita terbaru yang kecil dan beragam tentang
subjek tertentu: Bagaimana kami menghasilkan ai-alert milik aaai. Konferensi AAAI ke-33 tentang Kecerdasan Buatan, AAAI 2019, Konferensi
Aplikasi Inovatif Kecerdasan Buatan ke-31, IAAI 2019, dan Simposium AAAI ke-9 tentang Kemajuan Pendidikan dalam Kecerdasan Buatan,
EAAI 2019 (2019), 9357 – 9364. https://www.scopus.com/inward/record.uri? eid=2-
s2.0-85090801224&partnerID=40&md5=f3391d595e00df8a0cba7802c9043ebd Dikutip oleh: 2.
Bahasa Inggris
[49] Wouter Duivesteijn, Tara Farzami, Thijs Putman, Evertjan Peer, Hilde JP Weerts, Jasper N. Adegeest, Gerson Foks, dan Mykola Pechenizkiy.
2017. Dapatkan Dua Cara—Dari Pengujian A/B ke Pengujian A&B dengan Penambangan Model yang Luar Biasa. Dalam Pembelajaran
Mesin dan Penemuan Pengetahuan dalam Basis Data, Yasemin Altun, Kamalika Das, Taneli Mielik¨ainen, Donato Malerba, Jerzy Stefanowski,
Jesse Read, Marinka Zitnik, Michelangelo Ceci, dan Saÿso Dÿzeroski (Eds.). Springer International Publishing, Cham, 114–126.
[45] Alexey Drutsa, Gleb Gusev, dan Pavel Serdyukov. 2017. Periodisitas dalam Keterlibatan Pengguna dengan Mesin Pencari dan Aplikasinya
pada Eksperimen Terkendali Online. ACM Trans. Web 11, 2, Artikel 9 (April 2017), 35 halaman . https://doi.org/10.1145/2856822
[61] Aleksander Fabijan, Helena Holmstrom Olsson, dan Jan Bosch. 2015. Umpan Balik Pelanggan dan Teknik Pengumpulan Data dalam R&D
Perangkat Lunak: Tinjauan Literatur. Dalam Software Business, João M. Fernandes, Ricardo J. Machado, dan Krzysztof Wnuk (Eds.). Springer
International Publishing, Cham, 139–153. https://doi.org/10.1007/978-3-319-19593-3_12 [62] Aleksander Fabijan, Helena Holmstrom
Olsson, dan Jan Bosch. 2016. Kurangnya Pembagian Data Pelanggan dalam Organisasi Perangkat Lunak Besar: Tantangan dan Implikasinya.
Dalam Proses Agile, dalam Rekayasa Perangkat Lunak, dan Ex-
[60] Aleksander Fabijan, Jayant Gupchup, Somit Gupta, Jeff Omhover, Wen Qin, Lukas Vermeer, dan Pavel Dmitriev.
34
Machine Translated by Google

[68] Matthias Galster dan Danny Weyns. 2016. Penelitian Empiris dalam Arsitektur Perangkat Lunak: Sejauh Mana Kita Telah Maju?.
Dalam Konferensi Arsitektur Perangkat Lunak (WICSA) ke-13 IEEE/IFIP Tahun 2016. IEEE Press, Los Alamitos, CA, AS, 11–20.
https://doi.org/10.1109/WICSA.2016.10 [69] Federico
Giaimo, Hugo Andrade, dan Christian Berger. 2020. Eksperimen berkelanjutan dan tantangan sistem siber-fisik: Tinjauan umum literatur
dan perspektif industri. Jurnal Sistem dan Perangkat Lunak 170 (2020), 110781. https://doi.org/10.1016/j.jss.2020.110781 [70]
Carlos A. Gomez-Uribe dan Neil Hunt. 2016. Sistem
Rekomendasi Netflix: Algoritma, Nilai Bisnis, dan Inovasi. ACM Trans. Manage. Inf. Syst. 6, 4, Artikel 13 (Desember 2016), 19 halaman.
https://doi.org/10.1145/2843948 [71] Anjan Goswami, Wei Han, Zhenrui Wang, dan Angela Jiang. 2015. Eksperimen terkontrol
untuk pengambilan keputusan dalam pencarian e-Commerce. Dalam Konferensi Internasional IEEE tentang Big Data (Big Data) 2015.
IEEE Press, Los Alamitos, CA, AS, 1094–1102. https://doi.org/10.1109/BigData.2015.7363863
[64] Elea McDonnell Feit dan Ron Berman. 2019. Test & Roll: Uji A/B yang Memaksimalkan Keuntungan. Marketing Science 38, 6
(2019), 1038–1058. https://doi.org/10.1287/mksc.2019.1194
[65] Antonino Freno. 2017. Pelajaran Praktis dari Pengembangan Sistem Rekomendasi Skala Besar di Zalando. Dalam Prosiding
Konferensi ACM Kesebelas tentang Sistem Rekomendasi (Como, Italia) (RecSys '17). Association for Computing Machinery, New
York, NY, AS, 251–259. https://doi.org/10.1145/3109859.3109897 [66] Kun Fu, Fanlin Meng,
Jieping Ye, dan Zheng Wang. 2020. CompactETA: Sistem Inferensi Cepat untuk Prediksi Waktu Perjalanan. Dalam Prosiding Konferensi
Internasional ACM SIGKDD ke-26 tentang Penemuan Pengetahuan & Penambangan Data (Acara Virtual, CA, AS) (KDD '20).
Asosiasi Mesin Komputasi, New York, NY, AS, 3337–3345. https: //doi.org/10.1145/3394486.3403386
[63] Yaron Fairstein, Elad Haramaty, Arnon Lazerson, dan Liane Lewin-Eytan. 2022. Evaluasi Eksternal Model Pemeringkatan dalam
Bias Posisi Ekstrem. Dalam Prosiding Konferensi Internasional ACM Kelima Belas tentang Penelusuran Web dan Penambangan
Data (Acara Virtual, AZ, AS) (WSDM '22). Asosiasi Mesin Komputasi, New York, NY, AS, 252–261. https://doi.org/
10.1145/3488560.3498420
[76] Somit Gupta, Lucy Ulanova, Sumit Bhardwaj, Pavel Dmitriev, Paul Raff, dan Aleksander Fabijan. 2018. Anatomi Platform Eksperimen
Skala Besar. Dalam Konferensi Arsitektur Perangkat Lunak Internasional IEEE 2018 (ICSA). 1–109. https://doi.org/10.1109/
ICSA.2018.00009 [77] Viet Ha-Thuc, Avishek Dutta, Ren
Mao, Matthew Wood, dan Yunli Liu. 2020. Kerangka Kontrafaktual untuk Pengujian A/B Sisi Penjual di Marketplace. Dalam Prosiding
Konferensi ACM SIGIR Internasional ke-43 tentang Penelitian dan Pengembangan dalam Pengambilan Informasi (Acara Virtual,
Tiongkok) (SIGIR '20). Asosiasi Mesin Komputasi, New York, NY, AS, 2288–2296. [ 78 ] Yan He dan Miao Chen. 2017. Metode
Deteksi Outlier Probabilistik dan Independen Mekanisme untuk Eksperimen
Online. Dalam Konferensi Internasional IEEE 2017 tentang Ilmu Data dan Analisis Lanjutan (DSAA). 640–647. https://doi.org/10.1109/
DSAA.2017.64
[79] Yan He, Lin Yu, Miao Chen, William Choi, dan Don Matheson. 2022. Algoritma Pencocokan Tetangga Terdekat Berbasis Klaster
untuk Validasi A/A yang Ditingkatkan dalam Eksperimen Daring. Dalam Prosiding Pendamping Konferensi Web 2022 (Acara Virtual,
Lyon, Prancis) (WWW '22). Asosiasi Mesin Komputasi, New York, NY, AS, 136–140. https://doi.org/10.1145/3487553.3524220
Association for Computing Machinery, New York, NY, AS, 420–428. https://doi.org/10.1145/3289600.3291027 [73] Huan Gui, Ya Xu, Anmol Bhasin,
dan Jiawei Han. 2015. Pengujian Jaringan A/B: Dari Pengambilan Sampel hingga Estimasi. Dalam Prosiding Konferensi Internasional ke-24 tentang World Wide
Web (Florence, Italia) (WWW '15). Komite Pengarah Konferensi World Wide Web Internasional, Republik dan Kanton Jenewa, CHE, 399–409. https://
doi.org/10.1145/2736277.2741081 [ 74] Jayant Gupchup, Yasaman Hosseinkashi, Pavel Dmitriev, Daniel Schneider, Ross Cutler, Andrei Jefremov, dan
Martin Ellis. 2018. Eksperimen
yang Dapat Dipercaya dalam Kondisi Kehilangan Telemetri. Dalam Prosiding Konferensi Internasional ACM ke-27 tentang Manajemen Informasi dan Pengetahuan
(Torino, Italia) (CIKM '18). Asosiasi Mesin Komputasi, New York, NY, AS, 387–396. https://doi.org/10.1145/3269206.3271747 [75] Shubham Gupta dan
Sneha Chokshi. 2020. Efektivitas Pemasaran Digital Menggunakan Inkrementalitas. Dalam Kemajuan dalam Komputasi dan Ilmu Data, Mayank Singh, PK
Gupta, Vipin Tyagi, Jan Flusser, Tuncer Oren, dan Gianluca Valentino (Eds.). Springer Singapore,
Singapura, 66–75.
[80] Jez Humble dan David Farley. 2010. Pengiriman Berkelanjutan: Rilis Perangkat Lunak yang Andal melalui Otomatisasi Pembuatan, Pengujian, dan
Penerapan (edisi ke-1). Addison-Wesley Professional, Illinois, IL, AS.
[81] Hao Jiang, Fan Yang, dan Wutao Wei. 2020. Penalaran Statistik Pengujian A/B Big Data Buatan Pengguna yang Berorientasi Nol dan Miring ke Kanan.
Dalam Konferensi Internasional IEEE 2020 tentang Big Data (Big Data). 1533–1544. https://doi.org/10.
[ 82 ] Ramesh Johari, Pete Koomen, Leonid
Pekelis, dan David Walsh. 2017. Mengintip Pengujian A/B: Mengapa Itu Penting, dan Apa yang Harus Dilakukan Mengenai Hal Itu. Dalam Prosiding Konferensi
Internasional ACM SIGKDD ke-23 tentang Penemuan Pengetahuan dan
[72] Alois Gruson, Praveen Chandar, Christophe Charbuillet, James McInerney, Samantha Hansen, Damien Tardieu, dan Ben Carterette. 2019. Evaluasi Offline
untuk Membuat Keputusan Tentang Algoritma Rekomendasi Daftar Putar. Dalam Prosiding Konferensi Internasional ACM Kedua Belas tentang Pencarian
Web dan Penambangan Data (Melbourne VIC, Australia) (WSDM '19).
"""
[67] Burkhardt Funk. 2009. Mengoptimalkan tingkat harga dalam aplikasi e-commerce: Sebuah studi empiris . ICETE 2009 - Konferensi Bersama Internasional
tentang e-Bisnis dan Telekomunikasi (2009), 37 – 43. https://www.scopus.com/inward/record.uri?eid=2-
s2.0-74549181430&partnerID=40&md5=6dfdde67b807b3964c62fc8c1929dcf0 Dikutip oleh: 1.
Pemrograman Treme, Helen Sharp dan Tracy Hall (Eds.). Springer International Publishing, Cham, 39–52 . https://doi.org/10.1007/978-3-319-33515-5_4
35
Machine Translated by Google

Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-20 tentang Penemuan Pengetahuan dan Penambangan Data (New York, New York, AS) (KDD
'14). Asosiasi Mesin Komputasi, New York, NY, AS, 1857–1866. https: //doi.org/10.1145/2623330.2623341
[89] Ron Kohavi, Alex Deng, Brian Frasca, Toby Walker, Ya Xu, dan Nils Pohlmann. 2013. Eksperimen Terkendali Daring dalam Skala Besar. Dalam Prosiding
Konferensi Internasional ACM SIGKDD ke-19 tentang Penemuan Pengetahuan dan Penambangan Data (Chicago, Illinois, AS) (KDD '13). Asosiasi Mesin
Komputasi, New York, NY, AS, 1168–1176. https://doi.org/10.1145/2487575.2488217
nomor 10618-008-0114-1
[94] Ron Kohavi, Diane Tang, dan Ya Xu. 2020. Eksperimen Terkendali Daring yang Dapat Dipercaya: Panduan Praktis untuk Pengujian A/B. Cambridge
University Press, Cambridge, Inggris Raya. https://doi.org/10.1017/9781108653985 [95] Anastasiia Kornilova dan Lucas Bernardi. 2021.
Menambang Bintang: Mempelajari Peringkat Kualitas dengan Penjelasan yang Berhadapan dengan Pengguna untuk Sewa Liburan. Dalam Prosiding Konferensi
Internasional ACM ke-14 tentang Penelusuran Web dan Penambangan Data (Acara Virtual, Israel) (WSDM '21). Asosiasi Mesin Komputasi, New York, NY,
AS, 976–983. https://doi.org/10.1145/3437963.3441812
[88] Ron Kohavi, Alex Deng, Brian Frasca, Roger Longbotham, Toby Walker, dan Ya Xu. 2012. Eksperimen Terkendali Daring yang Dapat Dipercaya: Penjelasan
Lima Hasil yang Membingungkan. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-18 tentang Penemuan Pengetahuan dan Penambangan
Data (Beijing, Tiongkok) (KDD '12). Asosiasi Mesin Komputasi, New York, NY, AS, 786–794. https://doi.org/10.1145/2339530.2339653
[93] Ron Kohavi, Roger Longbotham, Dan Sommerfield, dan Randal Henne. 2009. Eksperimen terkontrol di web: Survei dan panduan praktis. Penambangan
Data dan Penemuan Pengetahuan 18 (02 2009), 140–181. https://doi.org/10.1007/
[86] Eugene Kharitonov, Aleksandr Vorobev, Craig Macdonald, Pavel Serdyukov, dan Iadh Ounis. 2015. Pengujian Berurutan untuk Penghentian Awal Eksperimen
Daring. Dalam Prosiding Konferensi Internasional ACM SIGIR ke-38 tentang Penelitian dan Pengembangan dalam Pencarian Informasi (Santiago, Chili)
(SIGIR '15). Asosiasi Mesin Komputasi, New York, NY, AS, 473–482. https://doi.org/10.1145/2766462.2767729
Dalam Prosiding Konferensi Internasional ACM Kesepuluh tentang Pencarian Web dan Penambangan Data (Cambridge, Inggris Raya) (WSDM '17).
Asosiasi Mesin Komputasi, New York, NY, AS, 651–659 . https://doi.org/10.1145/3018661.3018708
[99] Mounia Lalmas, Janette Lehmann, Guy Shaked, Fabrizio Silvestri, dan Gabriele Tolomei. 2015. Mempromosikan Pengalaman Pasca-Klik yang Positif bagi
Pengguna Yahoo Gemini In-Stream. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-21 tentang Penemuan Pengetahuan dan Penambangan
Data (Sydney, NSW, Australia) (KDD '15). Asosiasi Mesin Komputasi, New York, NY, AS, 1929–1938. https://doi.org/10.1145/2783258.2788581
[98] Ratnakar Kumar dan Nitasha Hasteer. 2017. Mengevaluasi kegunaan aplikasi web: Analisis komparatif alat sumber terbuka. Dalam Konferensi Internasional
ke-2 tentang Sistem Komunikasi dan Elektronik (ICCES) tahun 2017. 350–354. https://doi.org/10.1109/CESYS.2017.8321296
[100] Minyong R. Lee dan Milan Shen. 2018. Winner's Curse: Estimasi Bias untuk Efek Total Fitur dalam Eksperimen Terkendali Daring. Dalam Prosiding
Konferensi Internasional ACM SIGKDD ke-24 tentang Penemuan Pengetahuan & Penambangan Data (London, Inggris Raya) (KDD '18). Association for
Computing Machinery, New York, NY, AS, 491–499. https://doi.org/10.1145/3219819.3219905
Jurnal Elektronik (01 2017). https://doi.org/10.2139/ssrn.2909971
[87] Rochelle King, Elizabeth F. Churchill, dan Caitlin Tan. 2017. Mendesain dengan Data: Meningkatkan Pengalaman Pengguna dengan
Pengujian A/B. O'Reilly Media, Inc., Sebastopol, CA, AS.
[91] Ron Kohavi dan Roger Longbotham. 2011. Hasil Tak Terduga dalam Eksperimen Terkendali Online. SIGKDD Explor.
[90] Ron Kohavi, Alex Deng, Roger Longbotham, dan Ya Xu. 2014. Tujuh Aturan Praktis untuk Eksperimen Situs Web.
Newsl. 12, 2 (Mar 2011), 31–35. https://doi.org/10.1145/1964897.1964905 [92] Ron
Kohavi dan Roger Longbotham. 2017. Eksperimen Terkendali Online dan Pengujian A/B. Ensiklopedia Mesin
[85] Eugene Kharitonov, Alexey Drutsa, dan Pavel Serdyukov. 2017. Mempelajari Kombinasi Sensitif Metrik Uji A/B.
Laporan. Laporan teknis, Ver. 2.3 Laporan Teknis EBSE. EBSE.
[83] Nianqiao Ju, Diane Hu, Adam Henderson, dan Liangjie Hong. 2019. Uji Berurutan untuk Memilih Varian yang Lebih Baik: Pengujian
A/B Online, Alokasi Adaptif, dan Pemantauan Berkelanjutan. Dalam Prosiding Konferensi Internasional ACM Kedua Belas tentang
Pencarian Web dan Penambangan Data (Melbourne VIC, Australia) (WSDM '19). Asosiasi Mesin Komputasi, New York, NY, AS,
492–500. https://doi.org/10.1145/3289600.3291025 [84] Staffs Keele dkk. 2007. Pedoman untuk
melakukan tinjauan pustaka sistematis dalam rekayasa perangkat lunak. Teknis
Penambangan Data (Halifax, NS, Kanada) (KDD '17). Asosiasi Mesin Komputasi, New York, NY, AS, 1517–1525. https://doi.org/
10.1145/3097983.3097992
[102] Chengbo Li, Lin Zhu, Guangyuan Fu, Longzhi Du, Canhua Zhao, Tianlun Ma, Chang Ye, dan Pei Lee. 2021. Belajar Menggabungkan
Secara Proaktif untuk Pengiriman Makanan Sesuai Permintaan. Dalam Prosiding Konferensi Internasional ACM ke-30 tentang
Manajemen Informasi & Pengetahuan (Acara Virtual, Queensland, Australia) (CIKM '21). Asosiasi Komputasi
[97] Anuj Kumar dan Kartik Hosanagar. 2017. Mengukur Nilai Tautan Rekomendasi pada Permintaan Produk. SSRN
pembelajaran dan penambangan data 7, 8 (2017), 922–929.
[101] Florian Lettner, Clemens Holzmann, dan Patrick Hutflesz. 2013. Mengaktifkan Pengujian A/B Aplikasi Seluler Asli melalui Pertukaran
Antarmuka Pengguna Jarak Jauh. Dalam Teori Sistem Berbantuan Komputer - EUROCAST 2013, Roberto Moreno-D´ÿaz, Franz
Pichler, dan Alexis Quesada-Arencibia (Eds.). Springer Berlin Heidelberg, Berlin, Heidelberg, 458–466.
[96] Kostantinos Koukouvis, Roberto Alca˜niz Cubero, dan Patrizio Pelliccione. 2016. Pengujian A/B dalam Proses Penjualan E-commerce.
Dalam Rekayasa Perangkat Lunak untuk Sistem Tangguh, Ivica Crnkovic dan Elena Troubitsyna (Eds.). Springer International
Publishing, Cham, 133–148.
36
Machine Translated by Google

[107] Yiyang Li, Guanyu Tao, Weinan Zhang, Yong Yu, dan Jun Wang. 2017. Rekomendasi Konten dengan Pembelajaran Transfer Kontrasif
Noise pada Representasi Fitur. Dalam Prosiding Konferensi ACM tentang Manajemen Informasi dan Pengetahuan 2017 (Singapura,
Singapura) (CIKM '17). Association for Computing Machinery, New York, NY, AS, 1657–1665. https://doi.org/10.1145/3132847.3132855
[108] Ye Li, Hong Xie, Yishi Lin, dan John CS Lui. 2021. Menyatukan Inferensi Kausal Offline dan Pembelajaran Bandit Online untuk Keputusan
Berbasis Data. Dalam Prosiding Konferensi Web 2021 (Ljubljana, Slovenia) (WWW '21). Asosiasi Mesin Komputasi, New York, NY, AS,
2291–2303. https://doi.org/10.1145/3442381.3449982 [109] Kevin Liou dan Sean J. Taylor. 2020. Estimator
Tertimbang Varians untuk Meningkatkan Sensitivitas dalam Eksperimen Online. Dalam Prosiding Konferensi ACM ke-21 tentang Ekonomi dan
Komputasi (Acara Virtual, Hungaria) (EC '20). Asosiasi Mesin Komputasi, New York, NY, AS, 837–850. https://doi.org/
10.1145/3391403.3399542
Eksperimen Terkendali Tingkat Perusahaan dalam Skala Besar: Tantangan dan Solusi. Dalam Konferensi Euromicro ke-45 tentang
Rekayasa Perangkat Lunak dan Aplikasi Lanjutan (SEAA) tahun 2019. 29–37. https://doi.org/10.1109/SEAA.2019.00013 [111]
Yuchu Liu, David Issa Mattos, Jan Bosch, Helena Holmstrom Olsson, dan Jonn Lantz. 2021. Ukuran penting? Atau tidak: Pengujian A/B
dengan sampel terbatas dalam perangkat lunak tertanam otomotif. Dalam Konferensi Euromicro ke-47 tentang Rekayasa Perangkat
Lunak dan Aplikasi Lanjutan (SEAA) tahun 2021. 300–307. https://doi.org/10.1109/SEAA53835.2021.00046 [112] Widad
Machmouchi, Ahmed Hassan Awadallah, Imed Zitouni, dan Georg Buscher. 2017. Melampaui Tingkat Keberhasilan: Utilitas sebagai Metrik
Kualitas Penelusuran untuk Eksperimen Daring. Dalam Prosiding Konferensi ACM tentang Manajemen Informasi dan Pengetahuan
2017 (Singapura, Singapura) (CIKM '17). Association for Computing Machinery, New York, NY, AS, 757–765. https://doi.org/
10.1145/3132847.3132850
[115] Sara Mahdavi-Hezavehi, Vinicius HS Durelli, Danny Weyns, dan Paris Avgeriou. 2017. Tinjauan pustaka sistematis tentang metode yang
menangani beberapa atribut kualitas dalam sistem adaptif berbasis arsitektur. Information and Software Technology 90 (2017), 1–26.
https://doi.org/10.1016/j.infsof.2017.03.013
Tanggal 2021.00026
[106] Paul Luo Li, Pavel Dmitriev, Huibin Mary Hu, Xiaoyu Chai, Zoran Dimov, Brandon Paddock, Ying Li, Alex Kirshen-baum, Irina Niculescu,
dan Taj Thoresen. 2019. Eksperimen dalam Sistem Operasi: Platform Eksperimen Windows. Dalam Konferensi Internasional ke-41
IEEE/ACM 2019 tentang Rekayasa Perangkat Lunak: Rekayasa Perangkat Lunak dalam Praktik (ICSE-SEIP). 21–30. https://doi.org/
10.1109/ICSE-SEIP.2019.00011
Association for Computing Machinery, New York, NY, AS, 37–46. https://doi.org/10.1145/2684822.2685311 [105] Paul Luo Li,
Xiaoyu Chai, Frederick Campbell, Jilong Liao, Neeraja Abburu, Minsuk Kang, Irina Niculescu, Greg Brake, Siddharth Patil, James Dooley, dan
Brandon Paddock. 2021. Mengembangkan Perangkat Lunak agar Berbasis ML dengan Memanfaatkan Pengujian A/B di Dunia Nyata:
Pengalaman, Wawasan, Tantangan. Dalam Konferensi Internasional IEEE/ACM ke-43 tentang Rekayasa Perangkat Lunak: Rekayasa
Perangkat Lunak dalam Praktik (ICSE-SEIP) tahun 2021. 170–179. https://doi.org/10.1109/ICSE-SEIP52600.
[103] Hannah Li, Geng Zhao, Ramesh Johari, dan Gabriel Y. Weintraub. 2022. Interferensi, Bias, dan Varians dalam Eksperimen Pasar Dua
Sisi: Panduan untuk Platform. Dalam Prosiding Konferensi Web ACM 2022 (Acara Virtual, Lyon, Prancis) (WWW '22). Asosiasi Mesin
Komputasi, New York, NY, AS, 182–192. https: //doi.org/10.1145/3485447.3512063
[118] David Issa Mattos, Jan Bosch, dan Helena Holmstrom Olsson. 2017. Sistem Anda Semakin Baik Setiap Hari Anda Menggunakannya:
Menuju Eksperimen Berkelanjutan yang Otomatis. Dalam Konferensi Euromicro ke-43 tentang Rekayasa Perangkat Lunak dan Aplikasi
Lanjutan (SEAA) tahun 2017. 256–265. https://doi.org/10.1109/SEAA.2017.15
[104] Lihong Li, Jin Young Kim, dan Imed Zitouni. 2015. Menuju Prediksi Hasil Eksperimen A/B untuk Relevansi Pencarian. Dalam Prosiding
Konferensi Internasional ACM Kedelapan tentang Pencarian Web dan Penambangan Data (WSDM '15).
[113] Lech Madeyski, Wojciech Orzeszyna, Richard Torkar, dan Mariusz J´ozala. 2014. Mengatasi Masalah Mutasi Ekuivalen: Tinjauan
Literatur Sistematis dan Eksperimen Komparatif Mutasi Orde Kedua. IEEE Transactions on Software Engineering 40, 1 (2014), 23–
42. https://doi.org/10.1109/TSE.2013.44 [114] Maria Madlberger dan Jiri Jizdny. 2021. Dampak
konten media sosial promosi pada rasio klik-tayang - Bukti dari perusahaan FMCG. Konferensi Internasional ke-20 tentang WWW/Internet
2021 dan Komputasi Terapan 2021 (2021), 3 – 10. https://www.scopus.com/inward/record.uri?eid=2-
s2.0-85124068035&partnerID=40&md5= c0b8f49a3b48b3d561fd0ed305eb1895 Dikutip oleh: 0.
[110] Sophia Liu, Aleksander Fabijan, Michael Feargott, Damit Gupta, Pawel Janowski, Wen Qin, dan Pavel Dmitriev. 2019.
Mesin, New York, NY, AS, 3898–3905. https://doi.org/10.1145/3459637.3481931
[116] Taisei Masuda, Kyoko Murakami, Kenkichi Sugiura, Sho Sakui, Ron Philip Schuring, dan Mitsuhiro Mori. 2022. Studi acak terkontrol
plasebo fase 1/2 vaksin COVID-19 mRNA-1273 pada orang dewasa Jepang yang sehat: Laporan sementara. Vaccine 40, 13 (2022),
2044–2052. https://doi.org/10.1016/j.vaccine.2022.02.030 [117] David Issa Mattos, Jan Bosch, dan Helena
Holmstrom Olsson. 2017. Lebih Banyak dengan Harga Lebih Murah: Eksperimen Otomatis dalam Sistem yang Menggunakan Perangkat
Lunak Secara Intensif. Dalam Peningkatan Proses Perangkat Lunak yang Berfokus pada Produk, Michael Felderer, Daniel M´endez
Fern´andez, Burak Turhan, Marcos Kalinowski, Federica Sarro, dan Dietmar Winkler (Eds.). Springer International Publishing,
Cham, 146–161.
[119] David Issa Mattos, Jan Bosch, dan Helena Holmstrom Olsson. 2018. Tantangan dan Strategi untuk Melakukan Eksperimen
Berkelanjutan pada Sistem Tertanam: Perspektif Industri dan Penelitian. Dalam Proses Agile dalam Rekayasa Perangkat Lunak dan
Pemrograman Ekstrem, Juan Garbajosa, Xiaofeng Wang, dan Ademar Aguiar (Eds.). Springer International Publishing, Cham, 277–
292. https://doi.org/10.1007/978-3-319-91602-6_20 [120] David Issa Mattos, Jan Bosch, Helena
Holmstrom Olsson, Aita Maryam Korshani, dan Jonn Lantz. 2020. Pengujian A/B Otomotif: Tantangan dan Pelajaran yang Dipetik dari
Praktik. Dalam Konferensi Euromicro ke-46 tahun 2020 tentang Rekayasa Perangkat Lunak dan Aplikasi Lanjutan (SEAA). 101–109.
https://doi.org/10.1109/SEAA51224.2020.00026 [121] Pavel Metrikov, Fernando Diaz, Sebastien Lahaie,
dan Justin Rao. 2014. Optimasi Seluruh Halaman: Bagaimana Elemen Halaman
37
Machine Translated by Google

2820022
[129] Federico Quin, Danny Weyns, dan Matthias Galster. 2023. Studi Tinjauan Literatur Sistematis tentang Pengujian A/B. https:
//people.cs.kuleuven.be/danny.weyns/material/SLR_AB/
Asosiasi Mesin Komputasi, New York, NY, AS, 35–41. https://doi.org/10.1145/3194760.3194766 [134] Nir Rosenfeld, Yishay Mansour,
dan Elad Yom-Tov. 2017. Memprediksi Kontrafaktual dari Data Historis Besar dan Uji Coba Acak Kecil. Dalam Prosiding Konferensi Internasional ke-26
tentang World Wide Web Companion (Perth, Australia) (WWW '17 Companion). Komite Pengarah Konferensi World Wide Web Internasional,
Republik dan Kanton Jenewa, CHE, 602–609. https://doi.org/10.1145/3041021.3054190
[125] Dan Pelleg, Oleg Rokhlenko, Idan Szpektor, Eugene Agichtein, dan Ido Guy. 2016. Ketika Kerumunan Tidak Cukup: Meningkatkan Pengalaman
Pengguna dengan Media Sosial melalui Analisis Kualitas Otomatis. Dalam Prosiding Konferensi ACM ke-19 tentang Kerja Sama yang Didukung
Komputer & Komputasi Sosial (San Francisco, California, AS) (CSCW '16). Asosiasi Mesin Komputasi, New York, NY, AS, 1080–1090. https://
doi.org/10.1145/2818048.
Dalam Prosiding Konferensi Internasional Keenam tentang Analisis Pembelajaran & Pengetahuan (LAK '16). Association for Computing
Machinery, New York, NY, AS, 304–313. https://doi.org/10.1145/2883851.2883876 [131] Mohi Reza, Juho Kim, Ananya
Bhattacharjee, Anna N. Rafferty, dan Joseph Jay Williams. 2021. Kerangka Kerja MOOClet: Menyatukan Eksperimen, Peningkatan Dinamis, dan
Personalisasi dalam Kursus Daring. Dalam Prosiding Konferensi ACM Kedelapan tentang Pembelajaran @ Skala (Acara Virtual, Jerman) (L@S
'21). Association for Computing Machinery, New York, NY, AS, 15–26. https://doi.org/10.1145/3430895.3460128 [132] Pilar Rodr´ÿguez, Alireza
Haghighatkhah, Lucy Ellen Lwakatare, Susanna Teppola, Tanja Suomalainen, Juho Eskeli, Teemu
Karvonen, Pasi Kuvaja, June M. Verner, dan Markku Oivo. 2017. Penyebaran berkelanjutan produk dan layanan intensif perangkat lunak: Sebuah studi
pemetaan sistematis. Jurnal Sistem dan Perangkat Lunak 123 (2017), 263–291. https: //doi.org/10.1016/j.jss.2015.12.015
[123] Tadashi Okoshi, Kota Tsubouchi, dan Hideyuki Tokuda. 2019. Penerapan Produk di Dunia Nyata dari Penjadwalan Pemberitahuan Push Adaptif
pada Ponsel Pintar. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-25 tentang Penemuan Pengetahuan & Penambangan Data
(Anchorage, AK, AS) (KDD '19). Asosiasi Mesin Komputasi, New York, NY, AS, 2792–2800. https://doi.org/10.1145/3292500.3330732
[122] Risto Miikulainen, Myles Brundage, Jonathan Epstein, Tyler Foster, Babak Hodjat, Neil Iscoe, Jingbo Jiang, Diego Legrand, Sam Nazari, Xin Qiu,
Michael Scharff, Cory Schoolland, Robert Severn, dan Aaron Shagrin. 2020. Ascend by Evolv: Pengoptimalan Rasio Konversi Multivariat Masif
Berbasis AI. AI Magazine 41, 1 (April 2020), 44–60. https://doi.org/10.1609/aimag.v41i1.5256
[135] Sandra Sajeev, Jade Huang, Nikos Karampatziakis, Matthew Hall, Sebastian Kochman, dan Weizhu Chen. 2021. Aplikasi Bandit Kontekstual
dalam Bot Dukungan Pelanggan. Dalam Prosiding Konferensi ACM SIGKDD ke-27 tentang Penemuan Pengetahuan & Penambangan Data
(Acara Virtual, Singapura) (KDD '21). Asosiasi Mesin Komputasi, New York, NY, AS, 3522–3530. https://doi.org/10.1145/3447548.3467165
[137] Suhrid Satyal, Ingo Weber, Hye young Paik, Claudio Di Ciccio, dan Jan Mendling. 2019. Peningkatan proses bisnis dengan metodologi AB-BPM.
Sistem Informasi 84 (2019), 283–298. https://doi.org/10.1016/j.is.2018.06.
Nomor 007
[130] Jan Renz, Daniel Hoffmann, Thomas Staubitz, dan Christoph Meinel. 2016. Menggunakan pengujian A/B di lingkungan MOOC.
Dalam Prosiding Konferensi ACM ke-31 tentang Hiperteks dan Media Sosial (Acara Virtual, AS) (HT '20). Association for Computing
Machinery, New York, NY, AS, 291–300. https://doi.org/10.1145/3372923.3404781 [127] Alexey Poyarkov, Alexey
Drutsa, Andrey Khalyavin, Gleb Gusev, dan Pavel Serdyukov. 2016. Penyesuaian Regresi Pohon Keputusan yang Ditingkatkan untuk
Pengurangan Varians dalam Eksperimen Terkendali Daring. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-22 tentang
Penemuan Pengetahuan dan Penambangan Data (San Francisco, California, AS) (KDD '16). Association for Computing Machinery,
New York, NY, AS, 235–244. https://doi.org/10.1145/2939672.2939688 [128] Jia Qu dan Jing Zhang. 2016. Validasi Desain Seluler
dengan Pengujian Agile di Tiongkok: Berdasarkan Peta Baidu untuk Seluler.
Dalam Desain, Pengalaman Pengguna, dan Kegunaan: Pemikiran dan Metode Desain, Aaron Marcus (Ed.). Springer International
Publishing, Cham, 491–498.
Airoldi. 2017. Mendeteksi Efek Jaringan: Melakukan Acak Atas Eksperimen Acak. Dalam Prosiding Konferensi Internasional ACM
SIGKDD ke-23 tentang Penemuan Pengetahuan dan Penambangan Data (Halifax, NS, Kanada) (KDD '17).
[124] Takumi Ozawa, Akiyuki Sekiguchi, dan Kazuhiko Tsuda. 2016. Metode untuk Konstruksi Pengetahuan Penargetan Pengguna untuk
Situs Web Industri B2B. Procedia Computer Science 96 (2016), 1147–1155. https://doi.org/10.1016/ j.procs.2016.08.157 Sistem
Informasi & Rekayasa Berbasis Pengetahuan dan Cerdas: Prosiding Jurnal Ilmu Komputer ke-20
[126] Ladislav Peska dan Peter Vojtas. 2020. Evaluasi Sistem Rekomendasi Offline vs. On-Line dalam E-Commerce Kecil.
Konferensi Internasional KES-2016.
Berinteraksi dengan Lelang Posisi. Dalam Prosiding Konferensi Ekonomi dan Komputasi ACM Kelima Belas (Palo Alto, California,
AS) (EC '14). Asosiasi Mesin Komputasi, New York, NY, AS, 583–600. https: //doi.org/10.1145/2600057.2602871
Asosiasi Mesin Komputasi, New York, NY, AS, 1027–1035. https://doi.org/10.1145/3097983.3098192 [139] Gerald Schermann,
Dominik Sch¨oni, Philipp Leitner, dan Harald C. Gall. 2016. Bifrost: Mendukung Pengembangan Berkelanjutan
[136] Suhrid Satyal, Ingo Weber, Hye-young Paik, Claudio Di Ciccio, dan Jan Mendling. 2017. AB-BPM: Perutean Instans Berbasis Kinerja
untuk Peningkatan Proses Bisnis. Dalam Manajemen Proses Bisnis, Josep Carmona, Gregor Engels, dan Akhil Kumar (Eds.).
Springer International Publishing, Cham, 113–129.
[138] Martin Saveski, Jean Pouget-Abadie, Guillaume Saint-Jacques, Weitao Duan, Souvik Ghosh, Ya Xu, dan Edoardo M.
[133] Rasmus Ros dan Per Runeson. 2018. Eksperimen Berkelanjutan dan Pengujian A/B: Studi Pemetaan. Dalam Prosiding Lokakarya
Internasional ke-4 tentang Rekayasa Perangkat Lunak Berkelanjutan yang Cepat (Gothenburg, Swedia) (RCoSE '18).
38
Machine Translated by Google

[148] Fei Sun, Peng Jiang, Hanxiao Sun, Changhua Pei, Wenwu Ou, dan Xiaobo Wang. 2018. Jaringan Penunjuk Multi-Sumber untuk Ringkasan Judul Produk.
Dalam Prosiding Konferensi Internasional ACM ke-27 tentang Manajemen Informasi dan Pengetahuan (Torino, Italia) (CIKM '18). Asosiasi Mesin Komputasi,
New York, NY, AS, 7–16. https: //doi.org/10.1145/3269206.3271722
[149] Idan Szpektor, Yoelle Maarek, dan Dan Pelleg. 2013. Ketika Relevansi Tidaklah Cukup: Mendorong Keragaman dan Kesegaran dalam Rekomendasi
Pertanyaan yang Dipersonalisasi. Dalam Prosiding Konferensi Internasional ke-22 tentang World Wide Web (Rio de Janeiro, Brasil) (WWW '13). Asosiasi
Mesin Komputasi, New York, NY, AS, 1249–1260. https: //doi.org/10.1145/2488388.2488497
[150] Yukihiro Tagami, Toru Hotta, Yusuke Tanaka, Shingo Ono, Koji Tsukamoto, dan Akira Tajima. 2014. Mengisi Kesenjangan Kosakata Iklan Konteks dengan
Log Klik. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-20 tentang Penemuan Pengetahuan dan Penambangan Data (New York, New York,
AS) (KDD '14). Asosiasi Mesin Komputasi, New York, NY, AS, 1955–1964. https://doi.org/10.1145/2623330.2623334
3340631.3394875
[141] Fanjuan Shi, Chirine Ghedira, dan Jean-Luc Marini. 2015. Adaptasi Konteks untuk Sistem Rekomendasi Cerdas. IT Professional 17, 6 (2015), 18–26. https://
doi.org/10.1109/MITP.2015.96 [142] Janet Siegmund, Norbert Siegmund, dan Sven Apel. 2015.
Pandangan tentang Validitas Internal dan Eksternal dalam Rekayasa Perangkat Lunak Empiris. Dalam Konferensi Internasional IEEE ke-37 IEEE/ACM 2015
tentang Rekayasa Perangkat Lunak, Vol. 1. IEEE Press, Los Alamitos, CA, AS, 9–19. https://doi.org/10.1109/ICSE.2015.24
[146] Bruce Spang, Veronica Hannan, Shravya Kunamalla, Te-Yuan Huang, Nick McKeown, dan Ramesh Johari. 2021. Eksperimen yang Tidak Bias dalam
Jaringan yang Padat. Dalam Prosiding Konferensi Pengukuran Internet ACM ke-21 (Acara Virtual) (IMC '21). Asosiasi Mesin Komputasi, New York, NY,
AS, 80–95. https://doi.org/10.1145/
[143] Natalia Silberstein, Oren Somekh, Yair Koren, Michal Aharon, Dror Porat, Avi Shahar, dan Tingyi Wu. 2020. Mitigasi Penutupan Iklan untuk Peningkatan
Pengalaman Pengguna dalam Iklan Asli. Dalam Prosiding Konferensi Internasional ke-13 tentang Penelusuran Web dan Penambangan Data (Houston,
TX, AS) (WSDM '20). Asosiasi Mesin Komputasi, New York, NY, AS, 546–554. https://doi.org/10.1145/3336191.3371798
[140] Shahriar Shariat, Burkay Orten, dan Ali Dasdan. 2017. Evaluasi Daring Model Prediksi Tawaran dalam Platform Periklanan Komputasional Skala Besar:
Pengambilan Keputusan dan Wawasan. Knowl. Inf. Syst. 51, 1 (April 2017), 37–60 . https://doi.org/10.1007/s10115-016-0972-6
[152] Diane Tang, Ashish Agarwal, Deirdre O'Brien, dan Mike Meyer. 2010. Infrastruktur Eksperimen yang Tumpang Tindih: Eksperimen yang Lebih Banyak, Lebih
Baik, dan Lebih Cepat. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-16 tentang Penemuan Pengetahuan dan Penambangan Data
(Washington, DC, AS) (KDD '10). Asosiasi Mesin Komputasi, New York, NY, AS, 17–26. https://doi.org/10.1145/1835804.1835810
[155] Yutaro Ueoka, Kota Tsubouchi, dan Nobuyuki Shimizu. 2020. Mengatasi Masalah Kanibalisasi untuk Iklan Daring. Dalam Prosiding Konferensi ACM ke-28
tentang Pemodelan Pengguna, Adaptasi, dan Personalisasi (Genoa, Italia) (UMAP '20). Asosiasi Mesin Komputasi, New York, NY, AS, 358–362. https://
doi.org/10.1145/
Pemilihan Perawatan yang Dipersonalisasi Menggunakan Heterogenitas Kausal. Dalam Prosiding Konferensi Web 2021 (Ljubljana, Slovenia) (WWW '21).
Asosiasi Mesin Komputasi, New York, NY, AS, 1574–1585. https://doi.org/10. 1145/3442381.3450075
3487552.3487851
[151] Giordano Tamburrelli dan Alessandro Margara. 2014. Menuju Pengujian A/B Otomatis. Dalam Rekayasa Perangkat Lunak Berbasis
Pencarian, Claire Le Goues dan Shin Yoo (Eds.). Springer International Publishing, Cham, 184–198.
[153] Mert Toslali, Srinivasan Parthasarathy, Fabio Oliveira, dan Ayse K. Coskun. 2020. JACKPOT: Eksperimen daring layanan mikro
cloud. HotCloud 2020 - Lokakarya USENIX ke-12 tentang Topik Hangat dalam Komputasi Cloud, diselenggarakan bersama USENIX
ATC 2020 (2020). https://www.scopus.com/inward/record.uri?eid=2-s2.0-85091892156&partnerID=40&
md5=cae12fe24f34f2bb0818e448f8c07fbf Dikutip oleh: 1.
[154] Ye Tu, Kinjal Basu, Cyrus DiCiccio, Romil Bansal, Preetam Nandy, Padmini Jaikumar, dan Shaunak Chatterjee. 2021.
[156] Jean Vanderdonckt, Mathieu Zen, dan Radu-Daniel Vatavu. 2019. AB4Web: Penguji A/B Daring untuk Membandingkan Alternatif
Desain Antarmuka Pengguna. Prosiding ACM Hum.-Comput. Interact. 3, EICS, Artikel 18 (Juni 2019), 28 halaman. https://doi.org/
10.1145/3331160 [157] Deepak Kumar
Vasthimal, Pavan Kumar Srirama, dan Arun Kumar Akkinapalli. 2019. Platform Pelaporan Data yang Dapat Diskalakan untuk Pengujian A/
B. Dalam Konferensi Internasional IEEE ke-5 tentang Keamanan Data Besar di Cloud (BigDataSecurity) tahun 2019, Konferensi
Internasional IEEE tentang Kinerja Tinggi dan Komputasi Cerdas (HPSC) dan Konferensi Internasional IEEE tentang Data Cerdas
dan Keamanan (IDS). 230–238. https://doi.org/10.1109/BigDataSecurity-HPSC-IDS.2019.00052 [158]
Daniel Walper, Julia Kassau, Philipp Methfessel, Timo Pronold, dan Wolfgang Einhauser. 2020. Mengoptimalkan interaksi pengguna
[147] Akshitha Sriraman, Abhishek Dhanotia, dan Thomas F. Wenisch. 2019. SoftSKU: Mengoptimalkan Arsitektur Server untuk Keragaman
Layanan Mikro @Skala. Dalam Simposium Internasional Tahunan ke-46 ACM/IEEE 2019 tentang Arsitektur Komputer (ISCA). 513–
526.
Wiley Publishing, Hoboken, NJ, AS.
[144] Jorge Gabriel Siqueira dan Melise MV de Paula. 2018. Kerangka Kerja Eksekusi Pengujian A/B IPEAD. Dalam Prosiding Simposium
Sistem Informasi Brasil XIV (Caxias do Sul, Brasil) (SBSI'18). Asosiasi Mesin Komputasi, New York, NY, AS, Artikel 14, 8 halaman.
https://doi.org/10.1145/3229345.3229360 [145] Dan Siroker dan Pete Koomen. 2013. Pengujian A/B: Cara
Paling Ampuh untuk Mengubah Klik Menjadi Pelanggan (edisi ke-1).
penerapan dengan Penerapan Otomatis Strategi Pengujian Langsung Multi-Fase. Dalam Prosiding Konferensi Middleware
Internasional ke-17 (Trento, Italia) (Middleware '16). Asosiasi Mesin Komputasi, New York, NY, AS, Artikel 12, 14 halaman. https://
doi.org/10.1145/2988336.2988348
39
Machine Translated by Google

40
Komite Pengarah Konferensi World Wide Web Internasional, Republik dan Kanton Jenewa, CHE, 1209–1219. https://doi.org/
10.1145/2736277.2741126
Dalam Prosiding Konferensi Internasional ACM ke-28 tentang Manajemen Informasi dan Pengetahuan (CIKM '19).
[172] Sezin Gizem Yaman, Myriam Munezero, J¨urgen M¨unch, Fabian Fagerholm, Ossi Syd, Mika Aaltola, Christina Palmu, dan Tomi
M¨annist¨o. 2017. Memperkenalkan eksperimen berkelanjutan dalam organisasi produk dan layanan yang intensif perangkat lunak.
Jurnal Sistem dan Perangkat Lunak 133 (2017), 195–211. https://doi.org/10.1016/j.jss.2017.07.009 [173] Wanshan Yang, Gemeng
Yang, Ting Huang, Lijun Chen, dan Youjian Eugene Liu. 2018. Paus, Lumba-lumba, atau Ikan Kecil?
2022. Konsekuensi Perilaku Email Pengingat terhadap Prestasi Akademik Siswa: Penerapan di Dunia Nyata. Dalam Prosiding
Konferensi Tahunan ke-23 tentang Pendidikan Teknologi Informasi (Chicago, IL, AS) (SIGITE '22).
Asosiasi Mesin Komputasi, New York, NY, AS, 16–22. https://doi.org/10.1145/3537674.3554740 [175] Takeshi Yoneda,
Shunsuke Kozawa, Keisuke Osone, Yukinori Koide, Yosuke Abe, dan Yoshifumi Seki. 2019. Algoritma dan Arsitektur Sistem untuk
Rekomendasi Berita yang Dipersonalisasi dengan Segera. Dalam Konferensi Internasional IEEE/WIC/ACM tentang Kecerdasan
Web (Thessaloniki, Yunani) (WI '19). Asosiasi Mesin Komputasi, New York, NY,
[161] Yu Wang, Somit Gupta, Jiannan Lu, Ali Mahmoudzadeh, dan Sophia Liu. 2019. Tentang Bias Pengguna Berat dalam Pengujian A/B.
Menuju Pengelompokan Pemain dalam Game Online Gratis Berdasarkan Perilaku Pembelian melalui Teknik Penambangan Data.
Dalam Konferensi Internasional IEEE tentang Big Data (Big Data) 2018. 4101–4108. https://doi.org/10.1109/BigData.2018.8622067
[174] Runlong Ye, Pan Chen, Yini Mao, Angela Wang-Lin, Hammad Shaikh, Angela Zavaleta Bernuy, dan Joseph Jay Williams.
[159] Jian Wang dan David Hardtke. 2015. Model Preferensi Laten Pengguna untuk Manajemen Sisi Negatif yang Lebih Baik dalam Sistem
Rekomendasi. Dalam Prosiding Konferensi Internasional ke-24 tentang World Wide Web (Florence, Italia) (WWW '15).
wajah dalam produksi makanan: pelacakan tatapan lebih sensitif untuk pengujian AB daripada data perilaku saja. Dalam Simposium
ACM tentang Penelitian dan Aplikasi Pelacakan Mata (Makalah Pendek ETRA '20). Asosiasi Mesin Komputasi, New York, NY, AS,
1–4. https://doi.org/10.1145/3379156.3391351
3512097
[163] Liang Wu dan Mihajlo Grbovic. 2020. Bagaimana Airbnb Memberitahu Anda Akan Menikmati Pelayaran Saat Matahari Terbenam di Barcelona?
Rekomendasi di Pasar Perjalanan Dua Sisi. Dalam Prosiding Konferensi ACM SIGIR Internasional ke-43 tentang Penelitian dan Pengembangan
dalam Pengambilan Informasi (Acara Virtual, Tiongkok) (SIGIR '20). Asosiasi Mesin Komputasi, New York, NY, AS, 2387–2396. https://doi.org/
10.1145/3397271.3401444 [164] Yuhang Wu, Zeyu Zheng, Guangyu Zhang, Zuohua
Zhang, dan Chu Wang. 2022. Pengujian A/B Non-Stasioner. Dalam Prosiding Konferensi ACM SIGKDD ke-28 tentang Penemuan Pengetahuan dan
Penambangan Data (Washington DC, AS) (KDD '22). Asosiasi Mesin Komputasi, New York, NY, AS, 2079–2089. https://doi.org/10.1145/3534678.
[165] Tong Xia, Sumit Bhardwaj, Pavel Dmitriev, dan Aleksander Fabijan. 2019. Safe Velocity: Panduan Praktis untuk Penerapan Perangkat Lunak
dalam Skala Besar menggunakan Controlled Rollout. Dalam Konferensi Internasional IEEE/ACM ke-41 tentang Rekayasa Perangkat Lunak:
Rekayasa Perangkat Lunak dalam Praktik (ICSE-SEIP) tahun 2019. 11–20. https://doi.org/10.1109/ICSE-SEIP.2019.00010 [166] Yuxiang
Xie, Nanyu Chen, dan Xiaolin Shi. 2018. Deteksi Efek Perlakuan Heterogen yang Dikendalikan oleh Laju Penemuan Palsu untuk Eksperimen Terkendali
Daring. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-24 tentang Penemuan Pengetahuan & Penambangan Data (London, Inggris
Raya) (KDD '18). Asosiasi Mesin Komputasi, New York, NY, AS, 876–885. https://doi.org/10.1145/3219819.3219860
[167] Yuxiang Xie, Meng Xu, Evan Chow, dan Xiaolin Shi. 2021. Cara Mengukur Aplikasi Anda: Beberapa Jebakan dan Solusi dalam Mengukur
Performa Aplikasi dalam Eksperimen Terkendali Daring. Dalam Prosiding Konferensi Internasional ACM ke-14 tentang Penelusuran Web dan
Penambangan Data (Acara Virtual, Israel) (WSDM '21). Asosiasi Mesin Komputasi, New York, NY, AS, 949–957. https://doi.org/
10.1145/3437963.3441742 [168] Ya Xu dan Nanyu Chen. 2016. Mengevaluasi Aplikasi
Seluler dengan Pengujian A/B dan Kuasi A/B. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-22 tentang Penemuan Pengetahuan dan
Penambangan Data (San Francisco, California, AS) (KDD '16). Asosiasi Mesin Komputasi, New York, NY, AS, 313–322. https://doi.org/
10.1145/2939672.2939703 [169] Ya Xu, Nanyu Chen, Addrian Fernandez, Omar Sinno, dan Anmol Bhasin. 2015. Dari Infrastruktur ke Budaya:
Tantangan Pengujian A/B dalam Jejaring Sosial Skala Besar. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-21 tentang Penemuan
Pengetahuan dan Penambangan Data (Sydney, NSW, Australia) (KDD '15). Asosiasi Mesin Komputasi, New York, NY, AS, 2227–2236. https://
doi.org/10.1145/2783258.2788602
3437963.3441779
3539325
Asosiasi Mesin Komputasi, New York, NY, AS, 2425–2428. https://doi.org/10.1145/3357384.3358143 [162] Zenan Wang, Carlos Carrion,
Xiliang Lin, Fuhua Ji, Yongjun Bao, dan Weipeng Yan. 2022. Eksperimen Adaptif dengan Umpan Balik Biner Tertunda. Dalam Prosiding Konferensi
Web ACM 2022 (Acara Virtual, Lyon, Prancis) (WWW '22). Asosiasi Mesin Komputasi, New York, NY, AS, 2247–2255. https://doi.org/
10.1145/3485447.
[160] Weinan Wang dan Xi Zhang. 2021. CONQ: Efek Perlakuan Kuantil Berkelanjutan untuk Eksperimen Terkendali Daring Skala Besar. Dalam
Prosiding Konferensi Internasional ACM ke-14 tentang Pencarian Web dan Penambangan Data (Acara Virtual, Israel) (WSDM '21). Asosiasi
Mesin Komputasi, New York, NY, AS, 202–210. https://doi.org/10.1145/
[170] Ye Xu, Zang Li, Abhishek Gupta, Ahmet Bugdayci, dan Anmol Bhasin. 2014. Pemodelan Kesamaan Profesional dengan Menambang Lintasan
Karier Profesional. Dalam Prosiding Konferensi Internasional ACM SIGKDD ke-20 tentang Penemuan Pengetahuan dan Penambangan Data
(New York, New York, AS) (KDD '14). Asosiasi Mesin Komputasi, New York, NY, AS, 1945–1954. https://doi.org/10.1145/2623330.2623368
[171] Yanbo Xu, Divyat Mahajan, Liz Manrao, Amit Sharma, dan Emre Kÿcÿman. 2021. Analisis Perlakuan Terpisah untuk Mengurutkan Efek Kausal
Heterogen untuk Intervensi Prospektif. Dalam Prosiding Konferensi Internasional ACM ke-14 tentang Penelusuran Web dan Penambangan Data
(Acara Virtual, Israel) (WSDM '21). Asosiasi Mesin Komputasi, New York, NY, AS, 409–417. https://doi.org/10.1145/3437963.3441821
Machine Translated by Google

[179] Zhenyu Zhao, Yan He, dan Miao Chen. 2017. Menginformasikan Perubahan Produk melalui Eksperimen dengan Segmentasi
Perilaku Berbasis Data. Dalam Konferensi Internasional IEEE 2017 tentang Ilmu Data dan Analisis Lanjutan (DSAA). 69–78. https://
doi.org/10.1109/DSAA.2017.65
[176] Scott WH Young. 2014. Meningkatkan Pengalaman Pengguna Perpustakaan dengan Pengujian A/B: Prinsip dan Proses. Weave:
Jurnal Pengalaman Pengguna Perpustakaan 1 (08 2014). https://doi.org/10.3998/weave.12535642.0001.101
[177] Miao Yu, Wenbin Lu, dan Rui Song. 2020. Kerangka kerja baru untuk pengujian daring efek pengobatan heterogen. AAAI 2020 -
Konferensi AAAI ke-34 tentang Kecerdasan Buatan (2020), 10310 – 10317. https://www.scopus.com/inward/record.uri?eid=2-
s2.0-85106588123&partnerID=40&md5=53544f162212be7cd129e1f196debcd8 Dikutip oleh: 2.
AS, 124–131. https://doi.org/10.1145/3350546.3352509
[178] He Zhang dan Muhammad Ali Babar. 2010. Tentang Pencarian Studi Relevan dalam Rekayasa Perangkat Lunak. Dalam Prosiding
Konferensi Internasional ke-14 tentang Evaluasi dan Penilaian dalam Rekayasa Perangkat Lunak (Inggris) (EASE'10). BCS
Learning & Development Ltd., Swindon, GBR, 111–120.
41
Machine Translated by Google

Kerangka Kontrafaktual untuk Pengujian A/B Sisi Penjual di Pasar
Perangkap Eksperimen yang Harus Dihindari dalam Pengujian A/B untuk Personalisasi Online
15
Kertas
Lampiran A. Daftar penelitian primer
Mempelajari Kombinasi Sensitif Metrik Uji A/B
Mendeteksi Efek Jaringan: Acak Atas Eksperimen Acak
24
5
42
Pengujian A/B Non-Stasioner
[23]
Cara Mengukur Aplikasi Anda: Beberapa Jebakan dan Solusi dalam Mengukur
19
CONQ: Efek Perlakuan Kuantil Berkelanjutan untuk Eksperimen Terkendali Daring Skala Besar
identitas
1
2
3
Mengembangkan Perangkat Lunak Menjadi Berbasis ML dengan Memanfaatkan Pengujian A/B di Dunia
Nyata: Pengalaman, Wawasan, Tantangan
Tentang Inferensi Pasca-Seleksi dalam Pengujian A/B
7
8
9
26
27
28
Tabel A.21: Daftar penelitian primer.
Inferensi Statistik dalam Eksperimen Terkendali Online Dua Tahap dengan Pemilihan dan Validasi
Perlakuan
Aspek Praktis Sensitivitas dalam Eksperimen Daring dengan Metrik Keterlibatan Pengguna
Hasil Tak Terduga dalam Eksperimen Terkendali Online
[88]
[89]
[164]
[73]
[166]
[54]
[38]
[167]
[86]
[40]
[77]
[45]
Pengujian Jaringan A/B: Dari Pengambilan Sampel hingga Estimasi
[160]
Performa Aplikasi dalam Eksperimen Terkendali Online
Tanggal 20 21 22
Judul Referensi
[28]
Mendiagnosis Ketidaksesuaian Rasio Sampel dalam Eksperimen Terkendali Online: Taksonomi dan
Aturan Praktis bagi Praktisi
29
10
Percobaan Terkendali
Eksperimen Daring dengan Metrik Pengganti: Pedoman dan Studi Kasus
6
Mengevaluasi Aplikasi Seluler dengan Pengujian A/B dan Quasi A/B
25
Bagaimana Pengujian A/B Bisa Salah: Diagnosis Otomatis Eksperimen Online yang Tidak Valid
Deteksi Efek Perlakuan Heterogen yang Dikendalikan oleh Laju Penemuan Palsu
Pengujian Berurutan untuk Penghentian Dini Eksperimen Daring
13
[1]
[138]
[91]
[127]
Kerangka Kerja Eksekusi Uji A/B IPEAD
23
11
[105]
Prediksi Keterlibatan Pengguna Masa Depan dan Aplikasinya untuk Meningkatkan Sensitivitas Eksperimen
Online
Eksperimen Terkendali Online yang Dapat Dipercaya: Lima Hasil Membingungkan Dijelaskan
[60]
[144]
[82]
[85]
[47]
[168]
[39]
[48]
[44]
Periodisitas dalam Keterlibatan Pengguna dengan Mesin Pencari dan Aplikasinya pada
Penyesuaian Regresi Pohon Keputusan yang Ditingkatkan untuk Pengurangan Varians dalam Pembelajaran Daring
Estimasi Penyusutan dalam Eksperimen Online
Eksperimen Terkendali Online
14
Uji Sekuensial Nonparametrik untuk Eksperimen Acak Daring
Mengintip Pengujian A/B: Mengapa Hal Ini Penting, dan Apa yang Harus Dilakukan
[58]
4
30
Evolusi Eksperimen Berkelanjutan dalam Pengembangan Produk Perangkat Lunak: Dari Data ke
Organisasi Berbasis Data dalam Skala Besar
Eksperimen Terkendali Online dalam Skala Besar
12
Eksperimen Terkendali Online
16
17
18
Transformasi Konsisten Metrik Rasio untuk Eksperimen Terkendali Online yang Efisien
Machine Translated by Google

32
Ponsel Pintar
42
Algoritma Pencocokan Tetangga Terdekat Berbasis Cluster untuk Peningkatan A/A
Mempromosikan Pengalaman Pasca-Klik yang Positif bagi Pengguna Yahoo Gemini In-Stream
[131]
Menggunakan Penundaan dalam Efek Perawatan untuk Meningkatkan Sensitivitas dan Mempertahankan
60
Keputusan
Dari Infrastruktur ke Budaya: Tantangan Pengujian A/B dalam Media Sosial Skala Besar
48
36
59
Kerangka Kerja MOOClet: Menyatukan Eksperimen, Peningkatan Dinamis,
Eksperimen pada Sistem Operasi: Eksperimen Windows
[156]
Optimasi Seluruh Halaman: Bagaimana Elemen Halaman Berinteraksi dengan Lelang Posisi
Jaringan Penunjuk Multi-Sumber untuk Ringkasan Judul Produk
45
Menuju DevOps Berbasis Digital Twin untuk CPS yang Menyediakan Arsitektur Berbasis
Validasi dalam Eksperimen Online
[109]
[42]
Belajar Menggabungkan Secara Proaktif untuk Pengiriman Makanan Sesuai Permintaan
38
39
50
55
Arah Metrik Keterlibatan dalam Eksperimen A/B
Menambang Bintang: Mempelajari Penilaian Kualitas dengan Penjelasan yang Berhadapan dengan Pengguna untuk
Melampaui Data: Dari Informasi Pengguna hingga Nilai Bisnis melalui Personalisasi
Jaringan
[83]
[146]
[154]
[112]
[9]
[102]
[16]
[15]
[121]
54
dan Personalisasi dalam Kursus Online
[148]
Platform
[123]
31
Melebihi Peringkat Relevansi: Kerangka Kerja Pencocokan Grafik Umum untuk Utilitas
[43]
[162]
[108]
Estimator Berbobot Varians untuk Meningkatkan Sensitivitas dalam Eksperimen Online
[100]
Adaptasi & Verifikasi Layanan pada Saat Runtime
51
40
56
Pemilihan Perawatan yang Dipersonalisasi Menggunakan Heterogenitas Kausal
Mengukur Efek Dinamis Iklan Display Tanpa Kehadiran Pengguna
37
Rekomendasi dan Ilmu Konsumen
[171]
[99]
[134]
49
[33]
Uji Sekuensial untuk Memilih Varian yang Lebih Baik: Pengujian A/B Online, Alokasi Adaptif, dan
Pemantauan Berkelanjutan
AB4Web: Penguji A/B On-Line untuk Membandingkan Alternatif Desain Antarmuka Pengguna
[46]
Analisis Perlakuan Terpisah untuk Mengurutkan Efek Kausal Heterogen untuk Prospektif
[95]
Pembelajaran Berorientasi pada Peringkat
Selusin Kotor: Dua Belas Kesalahan Umum dalam Interpretasi Metrik dalam Eksperimen Terkendali
Daring
[169]
Eksperimen Adaptif dengan Umpan Balik Biner Tertunda
46
[175]
52
57
Informasi Pelacakan
Melampaui Tingkat Keberhasilan: Utilitas sebagai Metrik Kualitas Pencarian untuk Eksperimen Online
43
33
43
Memprediksi Kontrafaktual dari Data Historis Besar dan Data Acak Kecil
[72]
Eksperimen yang Tidak Bias dalam Jaringan yang Padat
[79]
Penerapan Produk Dunia Nyata dari Penjadwalan Pemberitahuan Push Adaptif di
Intervensi
41
Evaluasi Offline untuk Membuat Keputusan Tentang Algoritma Rekomendasi Daftar Putar
Kutukan Pemenang: Estimasi Bias untuk Efek Total Fitur dalam Eksperimen Terkendali Online
Menyatukan Inferensi Kausal Offline dan Pembelajaran Bandit Online untuk Pembelajaran Berbasis Data
47
35
58
53
Evaluasi Kampanye Pemasaran dalam Iklan Display Bertarget
Algoritma dan Arsitektur Sistem untuk Rekomendasi Berita yang Dipersonalisasi Secara Langsung
[106]
34
44
Uji coba
Sewa Liburan
Machine Translated by Google

Platform Pelaporan Data yang Dapat Diskalakan untuk Pengujian A/B
Bagaimana Airbnb Memberitahu Anda Akan Menikmati Pelayaran Saat Matahari Terbenam di Barcelona?
Rekomendasi di Pasar Perjalanan Dua Sisi
[163]
[170]
[27]
[143]
[126]
[2]
[5]
[135]
[165]
Eksperimen yang Dapat Dipercaya dalam Kehilangan Telemetri
91
[74]
[70]
[139]
[66]
[14]
[52]
[20]
[174]
Aplikasi Bandit Kontekstual dalam Bot Dukungan Pelanggan
Perancangan dan Analisis Eksperimen Benchmarking untuk Internet Terdistribusi
83
Mengevaluasi kegunaan aplikasi web: Analisis komparatif alat sumber terbuka
[111]
[157]
Evaluasi Eksternal Model Pemeringkatan dalam Bias Posisi Ekstrem
69
Model Kerangka Kerja untuk Mendukung Pengujian A/B di Tingkat Kelas dan Komponen
93
94
95
78
Mitigasi Penutupan Iklan untuk Meningkatkan Pengalaman Pengguna dalam Iklan Asli
Sistem Rekomendasi Netflix: Algoritma, Nilai Bisnis, dan Inovasi
Peningkatan yang didorong oleh eksperimen dalam Pembelajaran Mesin Human-in-the-loop Notasi melalui
pengujian A/B berbasis signifikansi
Interferensi, Bias, dan Varians dalam Eksperimen Pasar Dua Sisi:
65
[103]
[120]
[21]
[36]
61
62
Pemodelan Kesamaan Profesional dengan Lintasan Karier Profesional Pertambangan
Kecepatan Aman: Panduan Praktis untuk Penerapan Perangkat Lunak dalam Skala Besar menggunakan
Peluncuran Terkendali
Layanan
63
84
89
Mengatasi Masalah Kanibalisasi untuk Iklan Online
70
71
72
Penalaran Statistik dari Big Data yang Dihasilkan Pengguna dengan Kemiringan Kanan dan Tanpa Inflasi
96
79
80
81
Bifrost: Mendukung Penerapan Berkelanjutan dengan Pemberlakuan Otomatis
Anatomi Platform Eksperimen Skala Besar
Evaluasi Sistem Rekomendasi secara Off-Line vs. On-Line pada E-Commerce Skala Kecil
86
87
66
67
Dampak Perilaku Email Pengingat terhadap Prestasi Akademik Siswa: Penerapan di Dunia Nyata
Panduan untuk Platform
64
Ketika Relevansi Tidaklah Cukup: Mempromosikan Keberagaman dan Kesegaran dalam Rekomendasi
Pertanyaan yang Dipersonalisasi
85
Belajar Peringkat dalam Model Berbasis Posisi dengan Umpan Balik Bandit
Mengisi Kesenjangan Kosakata Iklan Konteks dengan Log Klik
Pengujian A/B
90
[65]
44
Strategi Pengujian Langsung Multi-Fase
Mengungkap misteri materi gelap untuk eksperimen daring
LASER: Platform Prediksi Respons yang Dapat Diskalakan untuk Periklanan Online
82
68
88
Pengujian A/B Otomotif: Tantangan dan Pelajaran yang Dipetik dari Praktik
Rekomendasi Konten dengan Pembelajaran Transfer Kontras Kebisingan Fitur
74
Penerapan estimasi parameter Bayesian pada pengujian A/B dalam aplikasi e-bisnis dengan menguji
dampak sinyal pemasaran hijau dalam pencarian bersponsor
[7]
[76]
[11]
[71]
[98]
VisRel: Pencarian Media dalam Skala Besar
Ukuran penting? Atau tidak: Pengujian A/B dengan sampel terbatas dalam perangkat lunak tertanam
otomotif
Pelajaran Praktis dari Pengembangan Sistem Rekomendasi Skala Besar di Za-lando
[18]
73
CompactETA: Sistem Inferensi Cepat untuk Prediksi Waktu Perjalanan
Peran Relevansi dalam Pencarian Bersponsor
[149]
Eksperimen terkontrol untuk pengambilan keputusan dalam pencarian e-Commerce
[81]
Pengujian A/B di SweetIM: Pentingnya Analisis Statistik yang Tepat
Perwakilan
[107]
[63]
[155]
[150]
periklanan
75
76
77
92
Optimasi Insentif Sosial di Jejaring Sosial Online
Machine Translated by Google

Perangkap eksperimen terkontrol online jangka panjang
Dampak konten media sosial promosi terhadap rasio klik-tayang - Bukti
103
104
119
Model Preferensi Laten Pengguna untuk Manajemen Kelemahan yang Lebih Baik dalam Sistem
Rekomendasi
[128]
[29]
[41]
[147]
[57]
[141]
[173]
[110]
[19]
[78]
Efektivitas Pemasaran Digital Menggunakan Inkrementalitas
Permainan Berdasarkan Perilaku Pembelian melalui Teknik Penambangan Data
Model Penambangan
107
Metode untuk Membangun Pengetahuan Penargetan Pengguna untuk Industri B2B
Sistem Anda Semakin Baik Setiap Hari Anda Menggunakannya: Menuju Eksperimen Berkelanjutan yang
Otomatis
[122]
[177]
[153]
[75]
[137]
[50]
[97]
[56]
Platform Periklanan: Pengambilan Keputusan dan Wawasan
124
125
[140]
[118]
LinkLouvain: Pengujian A/B yang Sadar Tautan dan Aplikasinya pada Kampanye Pemasaran Online
[114]
[6]
[24]
SoftSKU: Mengoptimalkan Arsitektur Server untuk Keragaman Layanan Mikro @Skala
pada subjek tertentu: Bagaimana kami menghasilkan peringatan AI aaa
Ketika Kerumunan Tidaklah Cukup: Meningkatkan Pengalaman Pengguna dengan Media Sosial
131
Eksperimen online yang lebih cepat dengan menghilangkan validasi A/A tradisional
dari perusahaan FMCG
Peningkatan proses bisnis dengan metodologi AB-BPM
Eksperimen Terkendali Tingkat Perusahaan dalam Skala Besar: Tantangan dan Solusi
108
Lebih Banyak dengan Harga Lebih Murah: Eksperimen Otomatis dalam Sistem yang Menggunakan Banyak Perangkat Lunak
[159]
Situs web
Sistem, Model dan Metode Rekomendasi Mode: Tinjauan
113
AB-BPM: Perutean instans yang digerakkan oleh kinerja untuk peningkatan proses bisnis
126
[136]
Manfaat Eksperimen Terkendali dalam Skala Besar
[26]
Ascend by Evolv: Optimasi tingkat konversi multivariat masif berbasis kecerdasan buatan
melalui Analisis Kualitas Otomatis
110
45
Percobaan
Mengukur nilai tautan rekomendasi pada permintaan produk
109
Algoritma genetik untuk menemukan sekumpulan berita terkini yang kecil dan beragam
130
Pohon Regresi untuk Model Bandit dalam Pengujian A/B
Haruskah perusahaan menawar merek mereka sendiri dalam pencarian yang disponsori?
Teknik Personalisasi Baris Subjek dan Pengaruhnya dalam Email
Bahasa
Indonesia: 97 98 99 100 101
Validasi Desain Seluler dengan Pengujian Agile di Tiongkok: Berdasarkan Peta Baidu
114
115
116
117
127
128
Adaptasi Konteks untuk Sistem Rekomendasi Cerdas
[8]
Kerangka kerja baru untuk pengujian online efek pengobatan heterogen
122
111
Analisis efisiensi piksel: Pendekatan analitik web kuantitatif
Pertumbuhan eksperimen: Mengembangkan kemampuan pengujian A/B yang dapat dipercaya di
perusahaan perangkat lunak daring
Menginformasikan Perubahan Produk melalui Eksperimen dengan Perilaku Berbasis Data
120
105
[49]
[117]
[30]
[125]
[22]
[96]
[124]
Metode Deteksi Outlier Probabilistik dan Independen Mekanisme untuk Analisis Data Online
102
Tingkat Pembukaan Pemasaran
untuk Seluler
118
129
Paus, Lumba-lumba, atau Ikan Kecil? Menuju Pengelompokan Pemain di Free Online
JACKPOT: Eksperimen daring layanan mikro berbasis cloud
Dapatkan Dua-Duanya—Dari Pengujian A/B ke Pengujian A&B dengan Exceptional
106
Pengujian A/B dalam Proses Penjualan E-commerce
Evaluasi Online Model Prediksi Penawaran dalam Komputasi Skala Besar
Segmentasi
112
[179]
121
123
Perluasan dan Pemeringkatan Entitas Terkait Menggunakan Grafik Pengetahuan
Machine Translated by Google

Tujuh aturan praktis bagi para peneliti situs web
Test & Roll: Pengujian A/B yang Memaksimalkan Keuntungan
138
[37]
[64]
[176]
Mengaktifkan Pengujian A/B Aplikasi Seluler Asli melalui Antarmuka Pengguna Jarak Jauh
Meningkatkan Pengalaman Pengguna Perpustakaan dengan Pengujian A/B: Prinsip dan Proses
139
140
132
133
141
Menukarkan
46
Infrastruktur Eksperimen yang Tumpang Tindih: Eksperimen yang Lebih Banyak, Lebih Baik, dan Lebih Cepat
134
Mengoptimalkan tingkat harga dalam aplikasi e-commerce: Sebuah studi empiris
135
136
Memfasilitasi Pengujian Terkendali atas Perubahan Desain Situs Web: Pendekatan Sistematis
137
[151]
[90]
[101]
[152]
[67]
[25]
Pembatasan Frekuensi Lunak untuk Prediksi Klik Iklan yang Lebih Baik di Yahoo Gemini
Warga asli
[3]
Pengujian Hipotesis Bayesian Objektif Dua Sampel untuk Eksperimen Terkendali Online
Menuju Pengujian A/B Otomatis
Machine Translated by Google