Chat sebagai roda penggerak data
Formulir mengumpulkan teks. Percakapan mengumpulkan bahasa. Kami mengganti alur input data yang kaku dengan chat multi-giliran terpandu yang menangkap tekstur lengkap cara komunitas benar-benar berbicara - termasuk topik, register, dialek, dan code-switching.
Kenapa formulir gagal untuk bahasa berdaya rendah
Sebagian besar dataset bahasa dibangun dari pasangan terjemahan dan teks hasil scraping. Untuk 700+ bahasa ibu di Indonesia - banyak yang terutama dituturkan, bukan ditulis - pendekatan itu cepat menemui jalan buntu.
Contributors quit forms
Prompt statis terasa seperti PR. Banyak orang berhenti di tengah jalan - terutama penutur yang lebih tua dan komunitas pedesaan, ketika register literasi berbeda dari bahasa prompt.
Data satu giliran itu tipis
Pasangan terjemahan melewatkan cara penutur benar-benar memakai bahasa - pragmatik, giliran bicara, perbaikan ucapan, honorifik, sampai momen ketika seseorang berganti dialek di tengah kalimat.
Registers go missing
Dari formal ke teman, orang tua ke anak, tawar-menawar pasar, doa, gosip - register berbeda membawa kosakata berbeda. Formulir mengumpulkan satu register, biasanya yang keliru.
Bagaimana chat mengumpulkan hal yang tidak bisa dikumpulkan formulir
Setiap percakapan diarahkan oleh prompt topik dan beradaptasi secara real time. Kontributor berbicara; platform mendengarkan, bercabang, dan mengajukan pertanyaan lanjutan yang dirancang untuk memunculkan fitur linguistik yang benar-benar dibutuhkan peneliti.
Topic & register selected
Kontributor memilih topik (pasar, keluarga, kerja, ritual, berita) dan register (formal, percakapan, ditujukan ke anak). Platform melacak keduanya sebagai metadata terstruktur pada setiap giliran.
Conversation branches on signal
Prompt lanjutan bersifat adaptif - mendorong detail spesifik, memancing kutipan langsung, dan meminta kontributor berganti register atau dialek di tengah thread. Setiap cabang dicatat untuk ditinjau peneliti.
Output kembali memperbaiki prompt
Saat model membaik dari data yang dikumpulkan, generasi prompt berikutnya menjadi lebih tajam - lebih baik memancing dialek langka, celah cakupan yang sulit, dan demografi penutur yang kurang terwakili. Roda penggeraknya makin kuat.
What every conversation gives us
Satu kontribusi bukan sekadar kalimat - melainkan rekaman multidimensi. Setiap giliran diberi tag bahasa, register, topik, dan konteks pragmatik, lalu dibersihkan dari PII sebelum masuk penyimpanan.
Multilingual context
Code-switching antara bahasa Indonesia, bahasa daerah, dan dialek dalam satu thread - diberi label per giliran.
Register linguistik
Ngoko, krama, halus, gaul, bahasa untuk anak, formal untuk orang tua - ditangkap secara alami, bukan direka ulang belakangan.
Pragmatik multi-giliran
Bagaimana penutur memperbaiki ucapan, berhati-hati, bercanda, menunda, dan tidak setuju - konteks yang tidak pernah terlihat oleh korpus satu kalimat.
Keberagaman topik
Cakupan dilacak di kehidupan sehari-hari, pekerjaan, ritual, kewargaan, dan berita - supaya pelatihan model tidak bias ke topik yang kebetulan mudah di-scrape.
Kenapa ini berlipat
Data yang lebih baik melatih model yang lebih baik. Model yang lebih baik menjalankan chat yang lebih baik. Chat yang lebih baik mengumpulkan data yang lebih langka. Setiap iterasi mempersempit celah cakupan dan memunculkan suara yang kurang terwakili.
Guided chat
Kontributor bercakap tentang topik pilihan dalam bahasa mereka.
Korpus bertag
Giliran diperkaya dengan register, topik, dialek, dan pragmatik.
Model training
Open-weight multilingual fine-tunes built on richer signal.
Prompt yang lebih pintar
Model lebih baik = tindak lanjut lebih tajam = celah sulit lebih terlihat.
Bermitra dengan kami dalam roda penggerak ini.
Penyandang dana, peneliti, dan mitra komunitas - mari bicara tentang merancang bersama paket topik, dialek target, atau deployment bersama.