PENDEKATAN PENGUMPULAN DATA

Chat sebagai roda penggerak data

Formulir mengumpulkan teks. Percakapan mengumpulkan bahasa. Kami mengganti alur input data yang kaku dengan chat multi-giliran terpandu yang menangkap tekstur lengkap cara komunitas benar-benar berbicara - termasuk topik, register, dialek, dan code-switching.

MASALAHNYA

Kenapa formulir gagal untuk bahasa berdaya rendah

Sebagian besar dataset bahasa dibangun dari pasangan terjemahan dan teks hasil scraping. Untuk 700+ bahasa ibu di Indonesia - banyak yang terutama dituturkan, bukan ditulis - pendekatan itu cepat menemui jalan buntu.

🥱

Kontributor berhenti mengisi formulir

Prompt statis terasa seperti PR. Banyak orang berhenti di tengah jalan - terutama penutur yang lebih tua dan komunitas pedesaan, ketika register literasi berbeda dari bahasa prompt.

📋

Data satu giliran itu tipis

Pasangan terjemahan melewatkan cara penutur benar-benar memakai bahasa - pragmatik, giliran bicara, perbaikan ucapan, honorifik, sampai momen ketika seseorang berganti dialek di tengah kalimat.

🎭

Ragam bahasa hilang

Dari formal ke teman, orang tua ke anak, tawar-menawar pasar, doa, gosip - register berbeda membawa kosakata berbeda. Formulir mengumpulkan satu register, biasanya yang keliru.

RODA PENGGERAK

Bagaimana chat mengumpulkan hal yang tidak bisa dikumpulkan formulir

Setiap percakapan diarahkan oleh prompt topik dan beradaptasi secara real time. Kontributor berbicara; platform mendengarkan, bercabang, dan mengajukan pertanyaan lanjutan yang dirancang untuk memunculkan fitur linguistik yang benar-benar dibutuhkan peneliti.

Topik: Kenangan pasar · Jawa (ngoko)

Coba ceritakan, pasar apa yang paling sering kamu kunjungi waktu kecil?

Pasar Beringharjo, bareng mbah putri. Mesti tuku jajan pasar.

Jajan pasar apa sing paling mbok elingi? Sopo sing biasane nawar regane?

Klepon karo cenil. Mbah putri sing nawar - galak banget, hahaha.

Kepriye carane mbah nawar? Coba tulis persis tembung sing dianggo.

Giliran

Ragam bahasa

Ngoko

Code-switch

2×

Topik dan ragam bahasa dipilih

Kontributor memilih topik (pasar, keluarga, kerja, ritual, berita) dan register (formal, percakapan, ditujukan ke anak). Platform melacak keduanya sebagai metadata terstruktur pada setiap giliran.

Percakapan bercabang berdasarkan sinyal

Prompt lanjutan bersifat adaptif - mendorong detail spesifik, memancing kutipan langsung, dan meminta kontributor berganti register atau dialek di tengah thread. Setiap cabang dicatat untuk ditinjau peneliti.

Output kembali memperbaiki prompt

Saat model membaik dari data yang dikumpulkan, generasi prompt berikutnya menjadi lebih tajam - lebih baik memancing dialek langka, celah cakupan yang sulit, dan demografi penutur yang kurang terwakili. Roda penggeraknya makin kuat.

SINYAL TERSTRUKTUR

Yang diberikan setiap percakapan

Satu kontribusi bukan sekadar kalimat - melainkan rekaman multidimensi. Setiap giliran diberi tag bahasa, register, topik, dan konteks pragmatik, lalu dibersihkan dari PII sebelum masuk penyimpanan.

🌐

Konteks multibahasa

Code-switching antara bahasa Indonesia, bahasa daerah, dan dialek dalam satu thread - diberi label per giliran.

🗣️

Register linguistik

Ngoko, krama, halus, gaul, bahasa untuk anak, formal untuk orang tua - ditangkap secara alami, bukan direka ulang belakangan.

💬

Pragmatik multi-giliran

Bagaimana penutur memperbaiki ucapan, berhati-hati, bercanda, menunda, dan tidak setuju - konteks yang tidak pernah terlihat oleh korpus satu kalimat.

🎯

Keberagaman topik

Cakupan dilacak di kehidupan sehari-hari, pekerjaan, ritual, kewargaan, dan berita - supaya pelatihan model tidak bias ke topik yang kebetulan mudah di-scrape.

EFEK BERLIPAT

Kenapa ini berlipat

Data yang lebih baik melatih model yang lebih baik. Model yang lebih baik menjalankan chat yang lebih baik. Chat yang lebih baik mengumpulkan data yang lebih langka. Setiap iterasi mempersempit celah cakupan dan memunculkan suara yang kurang terwakili.

Tahap 1

Chat terpandu

Kontributor bercakap tentang topik pilihan dalam bahasa mereka.

Tahap 2

Korpus bertag

Giliran diperkaya dengan register, topik, dialek, dan pragmatik.

Tahap 3

Pelatihan model

Fine-tune multibahasa open-weight yang dibangun dari sinyal yang lebih kaya.

Tahap 4

Prompt yang lebih pintar

Model lebih baik = tindak lanjut lebih tajam = celah sulit lebih terlihat.

Setiap putaran memperkuat cakupan dialek, topik, dan register.

Bermitra dengan kami dalam roda penggerak ini.

Penyandang dana, peneliti, dan mitra komunitas - mari bicara tentang merancang bersama paket topik, dialek target, atau deployment bersama.

Balik ke Baibu Ringkasan platform