OPEN-SUMBER AI INFRASTRUKTUR

Komunitas AI, diwangun kabuka

Platform tungtung-ka-tungtung pikeun sumber data paguneman sacara étika tina basa-basa anu teu diwakilan sareng modél multibasa anu nyaluyukeun - dikirimkeun salaku Digital Public Good open-source saha waé anu tiasa nyebarkeun dimana waé.

HIDUP AYEUNA

Dimana urang

Platform pendataan hirup sareng aktip nampi kontribusi. Ieu naon anu dijalankeun ayeuna ngalawan naon anu aya di hareup.

Hirup

Platform ngumpulkeun data

  • Formulir kiriman langsung — ayeuna dibuka pikeun eusi Javanese sareng Sundanese
  • Operasi pipa pangolahan otomatis (ngahapus PII, deduplikasi, nyetak kualitas)
  • Statistik umum dasbor nyukcruk kiriman sareng jumlah kecap sacara real waktos
  • Rekrutmen kontributor komunitas sareng onboarding dijalankeun
Ningali statistik langsung
Peta jalan
🗺️

Naon salajengna

  • Kembangkeun koleksi ka basa Indonésia tambahan
  • Modél multibasa kabuka-beurat fine-tuning - dimimitian Q2 2026
  • Antarbeungeut obrolan komunitas pikeun aksés AI basa lokal
  • Pelepasan sumber terbuka tina toolkit pipa pinuh
Arsitéktur

Kumaha platform jalan

Ti pendataan komunitas nepi ka model porsi - unggal tahapan modular, dirancang pikeun skala jeung réplikasi dina sagala infrastruktur.

1 Lapisan 1
Web · WhatsApp · Hubs

ngumpulkeun data masarakat

Kontributor ngirimkeun paguneman, carita, sareng téks dina 700+ basa Indonésia ngaliwatan aplikasi wéb, WhatsApp, sareng hub komunitas pribadi. Unggal kiriman ditandaan ku basa, dialék, nada, sareng topik.

2 Lapisan 2
Alur kerja otomatis

Pipa ngolah data

PII Lengser

Ngaran, nomer telepon, sareng idéntifikasi sacara otomatis dideteksi sareng digosok sateuacan data dugi ka panyimpenan.

Deduplikasi

Cocog kabur sareng pasti dina kiriman pikeun mastikeun kualitas set data sareng nyegah redundansi.

Skor Kualitas

Unggal kiriman diskor dina panjangna, kohérénsi, relevansi budaya, sareng karagaman topikal.

3 Lapisan 3
Model kabuka-beurat

Pelatihan model & fine-tuning

Bungkusan Dataset

Resep campuran data saimbang dina basa, topik, sareng tingkatan kualitas pikeun hasil latihan anu optimal.

Multilingual Fine-Tuning

Resep fine-tuning pikeun model basa multibasa beurat kabuka — ngahasilkeun varian skala awan sareng leutik dina alat.

Kaluaran

Antarbeungeut obrolan komunitas

AI nu nyarita basa lokal, deployed via low-bandwidth endpoints diaksés dina smartphone dasar tur sambungan 2G.

Kaluaran

Open-source toolkit

Sakabeh tumpukan open-sourced pikeun organisasi mana wae pikeun garpu, nyebarkeun, sarta ngalayanan komunitas basa anyar sakuliah dunya.

tumpukan éta

Naon urang ngawangun

Opat komponén inti - masing-masing sumber terbuka dumasar kana perjanjian kami sareng UNICEF Ventures - anu ngahiji ngabentuk toolkit AI Komunitas anu tiasa ditiru.

1

Pipa Ingestion Data

Koléksi multi-saluran tina kiriman wéb, pesen WhatsApp, sareng unggah massal ti hub komunitas lapangan. Deteksi sareng panyabutan PII otomatis mastikeun inpormasi pribadi henteu kantos dugi ka panyimpenan.

Wangun Wéb WhatsApp Impor Bulk
2

Infrastruktur Pelatihan

Resep campuran data pikeun nyaimbangkeun basa sareng topik. Fine-tuning pipelines pikeun model multibasa beurat kabuka - nargétkeun duanana awan-serving jeung varian leutik dina alat pikeun deployment padesaan low-konektipitas.

Buka Beurat LoRA / PEFT Kuantisasi
3

Inferensi & Chat

Ngalayanan titik tungtung sareng antarmuka obrolan anu nyanghareupan komunitas dina basa lokal. Dirancang pikeun aksés rubakpita low dina smartphone dasar - jalan dina jaringan 2G kalawan konsumsi data minimal.

Bandwidth low Dina Alat 2G marahmay
4

Open-Source Toolkit

Pipa lengkep - koléksi, pamrosésan, notebook latihan, resep data, sareng konfigurasi inferensi - dileupaskeun salaku open-source. Organisasi naon waé tiasa garpu sareng nyebarkeun pikeun grup atanapi daérah basa anyar.

Apache 2.0 GitHub Awan-Agnostik
OPEN SUMBER

A Digital Public Good

Salaku bagian tina investasi UNICEF Ventures urang, sakabéh tumpukan software open-sourced salaku Digital Public Good - dirancang sangkan sagala organisasi bisa niron modél AI Komunitas pikeun basa anyar, wewengkon, jeung infrastruktur.

Pipa Pangiriman Data

Titik ahir kumpulan, logika validasi, deteksi PII sareng scrubbing, deduplikasi, sareng skor kualitas - tina asupan kana set data anu beresih.

Notebook Pelatihan & Resep

notebook Jupyter pikeun konfigurasi campuran data, skrip fine-tuning, sarta dokuméntasi hyperparameter pikeun reproducing model latihan ngajalankeun.

Konfigurasi inferensi

Setélan porsi modél, konfigurasi kuantisasi pikeun panyebaran dina alat, sareng spésifikasi titik tungtung API pikeun inferensi awan sareng ujung.

Aplikasi wéb

Aplikasi wéb anu pinuh ku kontributor - formulir kiriman, dasbor, papan pamimpin komunitas, sareng alat admin - siap disebarkeun dina platform wadah mana waé.

Dicangking ku

Dibiayaan ku UNICEF Ventures

Bahasa Ibu mangrupakeun investasi portopolio tina UNICEF Venture Fund, nu invests dina tahap awal, solusi téhnologi open-source nu nguntungkeun barudak jeung komunitas sakuliah dunya. Sadaya kiriman platform open-sourced salaku Digital Public Good.

UNICEF Innovation Fund

UNICEF Venture Fund Portopolio Company

Dipilih tina ratusan pelamar pikeun ngawangun infrastruktur AI open-source anu ngalayanan komunitas anu henteu diwakilan. Investasi diwengku sacara khusus kana prakarsa Bahasa Ibu sareng platform AI Komunitas na, kalayan sadaya kiriman pipa sumber terbuka salaku Digital Public Good.

Témbongkeun portopolio UNICEF

Hayu urang ngawangun Komunitas AI babarengan.

Naha anjeun kontributor, pasangan, atanapi dana - aya tempat pikeun anjeun dina proyék ieu.