PENDEKATAN PENGUMPULAN DATA

Chat sebagai roda penggerak data

Formulir mengumpulkan teks. Percakapan mengumpulkan bahasa. Kami mengganti alur input data yang kaku dengan chat multi-giliran terpandu yang menangkap tekstur lengkap cara komunitas benar-benar berbicara - termasuk topik, register, dialek, dan code-switching.

THE PROBLEM

Kenapa formulir gagal untuk bahasa berdaya rendah

Sebagian besar dataset bahasa dibangun dari pasangan terjemahan dan teks hasil scraping. Untuk 700+ bahasa ibu di Indonesia - banyak yang terutama dituturkan, bukan ditulis - pendekatan itu cepat menemui jalan buntu.

๐Ÿฅฑ

Contributors quit forms

Prompt statis terasa seperti PR. Banyak orang berhenti di tengah jalan - terutama penutur yang lebih tua dan komunitas pedesaan, ketika register literasi berbeda dari bahasa prompt.

๐Ÿ“‹

Data satu giliran itu tipis

Pasangan terjemahan melewatkan cara penutur benar-benar memakai bahasa - pragmatik, giliran bicara, perbaikan ucapan, honorifik, sampai momen ketika seseorang berganti dialek di tengah kalimat.

๐ŸŽญ

Registers go missing

Dari formal ke teman, orang tua ke anak, tawar-menawar pasar, doa, gosip - register berbeda membawa kosakata berbeda. Formulir mengumpulkan satu register, biasanya yang keliru.

RODA PENGGERAK

Bagaimana chat mengumpulkan hal yang tidak bisa dikumpulkan formulir

Setiap percakapan diarahkan oleh prompt topik dan beradaptasi secara real time. Kontributor berbicara; platform mendengarkan, bercabang, dan mengajukan pertanyaan lanjutan yang dirancang untuk memunculkan fitur linguistik yang benar-benar dibutuhkan peneliti.

Topik: Kenangan pasar ยท Jawa (ngoko)
Coba ceritakan, pasar apa yang paling sering kamu kunjungi waktu kecil?
Pasar Beringharjo, bareng mbah putri. Mesti tuku jajan pasar.
Jajan pasar apa sing paling mbok elingi? Sopo sing biasane nawar regane?
Klepon karo cenil. Mbah putri sing nawar - galak banget, hahaha.
Kepriye carane mbah nawar? Coba tulis persis tembung sing dianggo.
Giliran
12
Register
Ngoko
Code-switch
2ร—
1

Topic & register selected

Kontributor memilih topik (pasar, keluarga, kerja, ritual, berita) dan register (formal, percakapan, ditujukan ke anak). Platform melacak keduanya sebagai metadata terstruktur pada setiap giliran.

2

Conversation branches on signal

Prompt lanjutan bersifat adaptif - mendorong detail spesifik, memancing kutipan langsung, dan meminta kontributor berganti register atau dialek di tengah thread. Setiap cabang dicatat untuk ditinjau peneliti.

3

Output kembali memperbaiki prompt

Saat model membaik dari data yang dikumpulkan, generasi prompt berikutnya menjadi lebih tajam - lebih baik memancing dialek langka, celah cakupan yang sulit, dan demografi penutur yang kurang terwakili. Roda penggeraknya makin kuat.

SINYAL TERSTRUKTUR

What every conversation gives us

Satu kontribusi bukan sekadar kalimat - melainkan rekaman multidimensi. Setiap giliran diberi tag bahasa, register, topik, dan konteks pragmatik, lalu dibersihkan dari PII sebelum masuk penyimpanan.

๐ŸŒ

Multilingual context

Code-switching antara bahasa Indonesia, bahasa daerah, dan dialek dalam satu thread - diberi label per giliran.

๐Ÿ—ฃ๏ธ

Register linguistik

Ngoko, krama, halus, gaul, bahasa untuk anak, formal untuk orang tua - ditangkap secara alami, bukan direka ulang belakangan.

๐Ÿ’ฌ

Pragmatik multi-giliran

Bagaimana penutur memperbaiki ucapan, berhati-hati, bercanda, menunda, dan tidak setuju - konteks yang tidak pernah terlihat oleh korpus satu kalimat.

๐ŸŽฏ

Keberagaman topik

Cakupan dilacak di kehidupan sehari-hari, pekerjaan, ritual, kewargaan, dan berita - supaya pelatihan model tidak bias ke topik yang kebetulan mudah di-scrape.

EFEK BERLIPAT

Kenapa ini berlipat

Data yang lebih baik melatih model yang lebih baik. Model yang lebih baik menjalankan chat yang lebih baik. Chat yang lebih baik mengumpulkan data yang lebih langka. Setiap iterasi mempersempit celah cakupan dan memunculkan suara yang kurang terwakili.

Tahap 1

Guided chat

Kontributor bercakap tentang topik pilihan dalam bahasa mereka.

Tahap 2

Korpus bertag

Giliran diperkaya dengan register, topik, dialek, dan pragmatik.

Tahap 3

Model training

Open-weight multilingual fine-tunes built on richer signal.

Tahap 4

Prompt yang lebih pintar

Model lebih baik = tindak lanjut lebih tajam = celah sulit lebih terlihat.

Setiap putaran memperkuat cakupan dialek, topik, dan register.

Bermitra dengan kami dalam roda penggerak ini.

Penyandang dana, peneliti, dan mitra komunitas - mari bicara tentang merancang bersama paket topik, dialek target, atau deployment bersama.