Chat sebagai roda penggerak data
Formulir mengumpulkan teks. Pacelathon mengumpulkan basa. Kami mengganti alur input data sing kaku kanthi chat multi-giliran terpandu sing menangkap tekstur lengkap cara komunitas bener-bener berbicara - termlebu topik, register, dialek, lan code-switching.
Kenapa formulir gagal kanggo basa berdaya rendah
Sebagian gedhe dataset basa dibangun saka pasangan terjemahan lan teks hasil scraping. Kanggo 700+ basa ibu ing Indonesia - banyak sing terutama dikuturkan, bukakn dikulis - cendhakatan iku cepat menemui jalan buntu.
Kontributor mandheg mengisi formulir
Prompt statis terasa seperti PR. Banyak orang mandheg ing tengah jalan - terutama penutur sing luwih tua lan komunitas pedesaan, ketika register literasi berbeda saka basa prompt.
Data satu giliran iku tipis
Pasangan terjemahan melewatkan cara penutur bener-bener memakai basa - pragmatik, giliran bicara, perbaikan ucapan, honorifik, sampai momen ketika seseorang berganti dialek ing tengah kalimat.
Ragam basa hilang
Saka formal mensing teman, wong tuwa mensing bocah, tawar-menawar pasar, doa, gosip - register berbeda membawa kosakata berbeda. Formulir mengumpulkan satu register, biasanya sing keliru.
Bagaimana chat mengumpulkan hal sing tidak bisa dikumpulkan formulir
Saben pacelathon diarahkan oleh prompt topik lan beradaptasi secara real time. Kontributor berbicara; platform mendengarkan, bercabang, lan mengajukan pitakon lanjutan sing dirancang kanggo memunculkan fikur linguistik sing bener-bener dibutuhkan peneliti.
Topik lan ragam basa dipilih
Kontributor memilih topik (pasar, kulawarga, kerja, rikual, berita) lan register (formal, pacelathon, dikujukan mensing bocah). Platform melacak keduanya sebagai metadata terstruktur ing saben giliran.
Pacelathon bercabang berdasarkan sinyal
Prompt lanjutan bersifat adaptif - mendorong detail spesifik, memancing kutipan langsung, lan meminta kontributor berganti register utawa dialek ing tengah thread. Saben cabang dicatat kanggo ditinjau peneliti.
Output bali memperbaiki prompt
Saat model membaik saka data sing dikumpulkan, generasi prompt berikutnya menjadi luwih tajam - luwih baik memancing dialek langka, celah cakupan sing sulit, lan demografi penutur sing kurang terwakili. Roda penggeraknya makin kuat.
Sing diberikan saben pacelathon
Satu kontribusi bukakn sekadar kalimat - melainkan rekaman multidimensi. Saben giliran diberi tag basa, register, topik, lan konteks pragmatik, lalu dibersihkan saka PII sadurunge mlebu panyimpenan.
Konteks multibasa
Code-switching antara basa Indonesia, basa daerah, lan dialek dalam satu thread - diberi label per giliran.
Register linguistik
Ngoko, krama, halus, gaul, basa kanggo bocah, formal kanggo wong tuwa - ditangkap secara alami, bukakn direka ulang belakangan.
Pragmatik multi-giliran
Bagaimana penutur memperbaiki ucapan, berhati-hati, bercsampeyan, menunda, lan tidak setuju - konteks sing tidak pernah terdeleng oleh korpus satu kalimat.
Keberagaman topik
Cakupan dilacak ing kehidupan sedina-dina, pekerjaan, rikual, kewargaan, lan berita - supaya pelatihan model tidak bias mensing topik sing kebetulan mudah di-scrape.
Kenapa iki berlipat
Data sing luwih baik melatih model sing luwih baik. Model sing luwih baik menjalankan chat sing luwih baik. Chat sing luwih baik mengumpulkan data sing luwih langka. Saben iterasi mempersempit celah cakupan lan memunculkan swara sing kurang terwakili.
Chat terpandu
Kontributor bercakap babagan topik pilihan dalam basa mereka.
Korpus bertag
Giliran diperkaya kanthi register, topik, dialek, lan pragmatik.
Pelatihan model
Fine-tune multibasa open-weight sing dibangun saka sinyal sing luwih kaya.
Prompt sing luwih pintar
Model luwih baik = tindak lanjut luwih tajam = celah sulit luwih terdeleng.
Bermitra kanthi kami dalam roda penggerak iki.
Penysampeyanng lana, peneliti, lan mitra komunitas - mari bicara babagan merancang bersama paket topik, dialek target, utawa deployment bersama.