Ngobrol salaku flywheel data
Wangun ngumpulkeun string. Paguneman ngumpulkeun basa. Kami ngagentos alur kerja éntri data anu kaku sareng obrolan multi-péngkolan anu dipandu anu nyandak tékstur lengkep kumaha komunitas anu leres-leres nyarios - kalebet topik, register, dialek, sareng alih kode.
Naha formulir gagal basa low-sumberdaya
Kalolobaan datasets basa diwangun ti pasangan tarjamahan jeung téks scraped. Pikeun 700+ basa indung di Indonésia — seueur anu umumna diucapkeun, sanés tulisan — pendekatan éta gancang pisan.
Kontributor kaluar formulir
Ajakan statik karasaeun tugas di bumi. Drop-off téh lungkawing - utamana pikeun speaker heubeul jeung komunitas désa dimana register melek béda ti basa ajakan.
Data péngkolan tunggal ipis
Tarjamahan pasangan sono kumaha panyatur sabenerna ngagunakeun basa - pragmatik, turn-taking, perbaikan, honorifics, momen batur pindah dialek pertengahan kalimah.
Registers leungit
Formal-ka-babaturan, sepuh-ka-anak, tawar menawar pasar, solat, gosip - registers béda mawa kosakata béda. Bentuk ngumpulkeun hiji register, biasana salah.
Kumaha obrolan ngumpulkeun naon formulir teu bisa
Unggal paguneman dipingpin ku ajakan topik sareng adaptasi sacara real waktos. The kontributor ceramah; platform listens, cabang, sarta nanyakeun nurutan-up dirancang permukaan fitur linguistik peneliti sabenerna butuh.
Topik & ngadaptar dipilih
Kontributor nyokot topik (pasar, kulawarga, pagawean, ritual, warta) jeung register a (formal, conversational, anak-diarahkeun). Platform ngalacak duanana salaku metadata terstruktur dina unggal péngkolan.
Cabang paguneman dina sinyal
Tuturkeun ajakan anu adaptif - ngadorong pikeun spésifik, eliciting tanda petik langsung, nanyakeun kontributor pikeun pindah register atawa dialek pertengahan thread. Unggal cabang geus asup pikeun review panalungtik.
Kaluaran eupan deui kana pituduh
Nalika modél ningkat tina data anu dikumpulkeun, paréntah generasi salajengna janten langkung seukeut - langkung saé dina nyebatkeun dialék anu jarang, jurang anu langkung hese dina sinyalna, sareng demografi spiker anu kirang diwakilan. Sanyawa flywheel.
Naon unggal paguneman masihan urang
Kontribusi tunggal sanes kalimah - éta rékaman multi-dimensi. Unggal péngkolan ditandaan dina basa, ngadaptar, topik, sareng kontéks pragmatis, teras digosok PII sateuacan dugi ka panyimpenan.
Kontéks multibasa
Alih kode antara basa Indonésia, basa daérah, jeung dialék dina hiji benang — dilabélan per péngkolan.
registers linguistik
Ngoko, krama, halus, gaul, anak-diarahkeun, sepuh-formal - direbut asli tinimbang reverse-direkayasa.
Pragmatik multi-balik
Kumaha panyatur ngalereskeun, pager hirup, lulucon, tunda, sareng teu satuju - kontéks anu teu pernah katingali ku korpora kalimat tunggal.
Topik diversity
Liputan dilacak dina kahirupan sapopoe, padamelan, ritual, sipil, sareng warta - janten palatihan modél henteu bias kana naon waé topik anu kajantenan.
Naha ieu sanyawa
Data anu langkung saé ngalatih modél anu langkung saé. Modél hadé ngajalankeun obrolan hadé. obrolan hadé ngumpulkeun data rarer. Unggal iterasi tightens sela liputan jeung surfaces sora handapeun-digambarkeun.
Obrolan dipandu
Kontributor ngobrol ngeunaan topik anu dipilih dina basana.
Tagged korpus
Turns enriched kalawan register, topik, dialék, pragmatik.
Latihan modél
Nada denda multibasa beurat kabuka diwangun dina sinyal anu langkung saé.
Pinter pituduh
model hadé = seukeut nuturkeun-up = harder sela surfaced.
Mitra sareng kami dina flywheel.
Pembiayaan, panalungtik, sareng mitra komunitas - ngobrol sareng kami ngeunaan ngarancang paket topik, dialek target, atanapi panyebaran anu dibagikeun.