PENDEKATAN PENGUMPULAN DATA

Chat sebagai roda penggerak data

Formulir mengumpulkan teks. Pacelathon mengumpulkan basa. Kami mengganti alur input data sing kaku kanthi chat multi-giliran terpandu sing menangkap tekstur lengkap cara komunitas bener-bener berbicara - termlebu topik, register, dialek, lan code-switching.

MASALAHNYA

Kenapa formulir gagal kanggo basa berdaya rendah

Sebagian gedhe dataset basa dibangun saka pasangan terjemahan lan teks hasil scraping. Kanggo 700+ basa ibu ing Indonesia - banyak sing terutama dikuturkan, bukakn dikulis - cendhakatan iku cepat menemui jalan buntu.

๐Ÿฅฑ

Kontributor mandheg mengisi formulir

Prompt statis terasa seperti PR. Banyak orang mandheg ing tengah jalan - terutama penutur sing luwih tua lan komunitas pedesaan, ketika register literasi berbeda saka basa prompt.

๐Ÿ“‹

Data satu giliran iku tipis

Pasangan terjemahan melewatkan cara penutur bener-bener memakai basa - pragmatik, giliran bicara, perbaikan ucapan, honorifik, sampai momen ketika seseorang berganti dialek ing tengah kalimat.

๐ŸŽญ

Ragam basa hilang

Saka formal mensing teman, wong tuwa mensing bocah, tawar-menawar pasar, doa, gosip - register berbeda membawa kosakata berbeda. Formulir mengumpulkan satu register, biasanya sing keliru.

RODA PENGGERAK

Bagaimana chat mengumpulkan hal sing tidak bisa dikumpulkan formulir

Saben pacelathon diarahkan oleh prompt topik lan beradaptasi secara real time. Kontributor berbicara; platform mendengarkan, bercabang, lan mengajukan pitakon lanjutan sing dirancang kanggo memunculkan fikur linguistik sing bener-bener dibutuhkan peneliti.

Topik: Kenangan pasar ยท Jawa (ngoko)
Coba ceritakan, pasar apa sing paling sering sampeyan kunjungi waktu cilik?
Pasar Beringharjo, bareng mbah putri. Mesti tuku jajan pasar.
Jajan pasar apa sing paling mbok elingi? Sopo sing biasane nawar regane?
Klepon karo cenil. Mbah putri sing nawar - galak banget, hahaha.
Kepriye carane mbah nawar? Coba tulis persis tembung sing dianggo.
Giliran
12
Ragam basa
Ngoko
Code-switch
2ร—
1

Topik lan ragam basa dipilih

Kontributor memilih topik (pasar, kulawarga, kerja, rikual, berita) lan register (formal, pacelathon, dikujukan mensing bocah). Platform melacak keduanya sebagai metadata terstruktur ing saben giliran.

2

Pacelathon bercabang berdasarkan sinyal

Prompt lanjutan bersifat adaptif - mendorong detail spesifik, memancing kutipan langsung, lan meminta kontributor berganti register utawa dialek ing tengah thread. Saben cabang dicatat kanggo ditinjau peneliti.

3

Output bali memperbaiki prompt

Saat model membaik saka data sing dikumpulkan, generasi prompt berikutnya menjadi luwih tajam - luwih baik memancing dialek langka, celah cakupan sing sulit, lan demografi penutur sing kurang terwakili. Roda penggeraknya makin kuat.

SINYAL TERSTRUKTUR

Sing diberikan saben pacelathon

Satu kontribusi bukakn sekadar kalimat - melainkan rekaman multidimensi. Saben giliran diberi tag basa, register, topik, lan konteks pragmatik, lalu dibersihkan saka PII sadurunge mlebu panyimpenan.

๐ŸŒ

Konteks multibasa

Code-switching antara basa Indonesia, basa daerah, lan dialek dalam satu thread - diberi label per giliran.

๐Ÿ—ฃ๏ธ

Register linguistik

Ngoko, krama, halus, gaul, basa kanggo bocah, formal kanggo wong tuwa - ditangkap secara alami, bukakn direka ulang belakangan.

๐Ÿ’ฌ

Pragmatik multi-giliran

Bagaimana penutur memperbaiki ucapan, berhati-hati, bercsampeyan, menunda, lan tidak setuju - konteks sing tidak pernah terdeleng oleh korpus satu kalimat.

๐ŸŽฏ

Keberagaman topik

Cakupan dilacak ing kehidupan sedina-dina, pekerjaan, rikual, kewargaan, lan berita - supaya pelatihan model tidak bias mensing topik sing kebetulan mudah di-scrape.

EFEK BERLIPAT

Kenapa iki berlipat

Data sing luwih baik melatih model sing luwih baik. Model sing luwih baik menjalankan chat sing luwih baik. Chat sing luwih baik mengumpulkan data sing luwih langka. Saben iterasi mempersempit celah cakupan lan memunculkan swara sing kurang terwakili.

Tahap 1

Chat terpandu

Kontributor bercakap babagan topik pilihan dalam basa mereka.

Tahap 2

Korpus bertag

Giliran diperkaya kanthi register, topik, dialek, lan pragmatik.

Tahap 3

Pelatihan model

Fine-tune multibasa open-weight sing dibangun saka sinyal sing luwih kaya.

Tahap 4

Prompt sing luwih pintar

Model luwih baik = tindak lanjut luwih tajam = celah sulit luwih terdeleng.

Saben puteran memperkuat cakupan dialek, topik, lan register.

Bermitra kanthi kami dalam roda penggerak iki.

Penysampeyanng lana, peneliti, lan mitra komunitas - mari bicara babagan merancang bersama paket topik, dialek target, utawa deployment bersama.