Komunitas AI, diwangun kabuka
Platform tungtung-ka-tungtung pikeun sumber data paguneman sacara étika tina basa-basa anu teu diwakilan sareng modél multibasa anu nyaluyukeun - dikirimkeun salaku Digital Public Good open-source saha waé anu tiasa nyebarkeun dimana waé.
Dimana urang
Platform pendataan hirup sareng aktip nampi kontribusi. Ieu naon anu dijalankeun ayeuna ngalawan naon anu aya di hareup.
Platform ngumpulkeun data
- ✓Formulir kiriman langsung — ayeuna dibuka pikeun eusi Javanese sareng Sundanese
- ✓Operasi pipa pangolahan otomatis (ngahapus PII, deduplikasi, nyetak kualitas)
- ✓Statistik umum dasbor nyukcruk kiriman sareng jumlah kecap sacara real waktos
- ✓Rekrutmen kontributor komunitas sareng onboarding dijalankeun
Naon salajengna
- ●Kembangkeun koleksi ka basa Indonésia tambahan
- ●Modél multibasa kabuka-beurat fine-tuning - dimimitian Q2 2026
- ●Antarbeungeut obrolan komunitas pikeun aksés AI basa lokal
- ●Pelepasan sumber terbuka tina toolkit pipa pinuh
Kumaha platform jalan
Ti pendataan komunitas nepi ka model porsi - unggal tahapan modular, dirancang pikeun skala jeung réplikasi dina sagala infrastruktur.
ngumpulkeun data masarakat
Kontributor ngirimkeun paguneman, carita, sareng téks dina 700+ basa Indonésia ngaliwatan aplikasi wéb, WhatsApp, sareng hub komunitas pribadi. Unggal kiriman ditandaan ku basa, dialék, nada, sareng topik.
Pipa ngolah data
PII Lengser
Ngaran, nomer telepon, sareng idéntifikasi sacara otomatis dideteksi sareng digosok sateuacan data dugi ka panyimpenan.
Deduplikasi
Cocog kabur sareng pasti dina kiriman pikeun mastikeun kualitas set data sareng nyegah redundansi.
Skor Kualitas
Unggal kiriman diskor dina panjangna, kohérénsi, relevansi budaya, sareng karagaman topikal.
Pelatihan model & fine-tuning
Bungkusan Dataset
Resep campuran data saimbang dina basa, topik, sareng tingkatan kualitas pikeun hasil latihan anu optimal.
Multilingual Fine-Tuning
Resep fine-tuning pikeun model basa multibasa beurat kabuka — ngahasilkeun varian skala awan sareng leutik dina alat.
Antarbeungeut obrolan komunitas
AI nu nyarita basa lokal, deployed via low-bandwidth endpoints diaksés dina smartphone dasar tur sambungan 2G.
Open-source toolkit
Sakabeh tumpukan open-sourced pikeun organisasi mana wae pikeun garpu, nyebarkeun, sarta ngalayanan komunitas basa anyar sakuliah dunya.
Naon urang ngawangun
Opat komponén inti - masing-masing sumber terbuka dumasar kana perjanjian kami sareng UNICEF Ventures - anu ngahiji ngabentuk toolkit AI Komunitas anu tiasa ditiru.
Pipa Ingestion Data
Koléksi multi-saluran tina kiriman wéb, pesen WhatsApp, sareng unggah massal ti hub komunitas lapangan. Deteksi sareng panyabutan PII otomatis mastikeun inpormasi pribadi henteu kantos dugi ka panyimpenan.
Infrastruktur Pelatihan
Resep campuran data pikeun nyaimbangkeun basa sareng topik. Fine-tuning pipelines pikeun model multibasa beurat kabuka - nargétkeun duanana awan-serving jeung varian leutik dina alat pikeun deployment padesaan low-konektipitas.
Inferensi & Chat
Ngalayanan titik tungtung sareng antarmuka obrolan anu nyanghareupan komunitas dina basa lokal. Dirancang pikeun aksés rubakpita low dina smartphone dasar - jalan dina jaringan 2G kalawan konsumsi data minimal.
Open-Source Toolkit
Pipa lengkep - koléksi, pamrosésan, notebook latihan, resep data, sareng konfigurasi inferensi - dileupaskeun salaku open-source. Organisasi naon waé tiasa garpu sareng nyebarkeun pikeun grup atanapi daérah basa anyar.
A Digital Public Good
Salaku bagian tina investasi UNICEF Ventures urang, sakabéh tumpukan software open-sourced salaku Digital Public Good - dirancang sangkan sagala organisasi bisa niron modél AI Komunitas pikeun basa anyar, wewengkon, jeung infrastruktur.
Pipa Pangiriman Data
Titik ahir kumpulan, logika validasi, deteksi PII sareng scrubbing, deduplikasi, sareng skor kualitas - tina asupan kana set data anu beresih.
Notebook Pelatihan & Resep
notebook Jupyter pikeun konfigurasi campuran data, skrip fine-tuning, sarta dokuméntasi hyperparameter pikeun reproducing model latihan ngajalankeun.
Konfigurasi inferensi
Setélan porsi modél, konfigurasi kuantisasi pikeun panyebaran dina alat, sareng spésifikasi titik tungtung API pikeun inferensi awan sareng ujung.
Aplikasi wéb
Aplikasi wéb anu pinuh ku kontributor - formulir kiriman, dasbor, papan pamimpin komunitas, sareng alat admin - siap disebarkeun dina platform wadah mana waé.
Dibiayaan ku UNICEF Ventures
Bahasa Ibu mangrupakeun investasi portopolio tina UNICEF Venture Fund, nu invests dina tahap awal, solusi téhnologi open-source nu nguntungkeun barudak jeung komunitas sakuliah dunya. Sadaya kiriman platform open-sourced salaku Digital Public Good.
UNICEF Venture Fund Portopolio Company
Dipilih tina ratusan pelamar pikeun ngawangun infrastruktur AI open-source anu ngalayanan komunitas anu henteu diwakilan. Investasi diwengku sacara khusus kana prakarsa Bahasa Ibu sareng platform AI Komunitas na, kalayan sadaya kiriman pipa sumber terbuka salaku Digital Public Good.
Témbongkeun portopolio UNICEFHayu urang ngawangun Komunitas AI babarengan.
Naha anjeun kontributor, pasangan, atanapi dana - aya tempat pikeun anjeun dina proyék ieu.