Community AI, Dibangun Terbukak
Platform end-to-end kanggo mengumpulkan data pacelathon secara etis saka basa-basa sing kurang terwakili lan melakukan fine-tuning model multibasa. Berjalan native ing Google Cloud lan dirilis sebagai Digital Public Good open-source sing bisa di-deploy siapa pun ing mana saja.
Posisi Kami Saiki
Platform pengumpulan data sudah live lan aktif menerima kontribusi. Iki sing sudah berjalan saiki lan sing akan menyusul.
Platform Pengumpulan Data
- ✓Formulir pengiriman sudah live, saat iki dibukak kanggo konten Basa Jawa lan Basa Sunda
- ✓Pipeline pangolahan otomatis sudah berjalan (pengbusakan PII, deduplikasi, penilaian kualitas)
- ✓Dashboard statistik publik melacak jumlah kiriman lan kata secara real-time
- ✓Rekrutmen lan onboarding kontributor komunitas selang berjalan
Langkah Berikutnya
- ●Perluas pengumpulan mensing basa-basa Indonesia liyane
- ●Fine-tuning model multibasa open-weight - miwiti Q2 2026
- ●Antarmuka chat komunitas kanggo akses AI berbasa lokal
- ●Rilis open-source kanggo toolkit pipeline lengkap
Cara Kerja Platform
Saka pengumpulan data komunitas sampai model serving, saben tahap berjalan ing infrastruktur Google Cloud lan dirancang kanggo skala gedhe serta mudah direplikasi.
Pengumpulan Data Komunitas
Kontributor ngirim pacelathon, cerita, lan teks dalam 700+ basa Indonesia lewat aplikasi web, WhatsApp, lan hub komunitas tatap muka. Saben kiriman diberi tag basa, dialek, nada, lan topik.
Pipeline Pangolahan Data Otomatis
Pengbusakan PII
Jeneng, nomer telepon, lan pengenal liyane otomatis terdeteksi lalu dibersihkan sadurunge data mlebu mensing panyimpenan.
Deduplikasi
Pencocokan fuzzy lan exact antar kiriman kanggo menjaga kualitas dataset lan mencegah redunlansi.
Penilaian Kualitas
Saben kiriman dikilai berdasarkan dawa, koherensi, relevansi budaya, lan keragaman topik.
Pelatihan lan Fine-Tuning Model
Pengemasan Dataset
Resep campuran data diseimbangkan lintas basa, topik, lan tingkat kualitas kanggo hasil pelatihan sing optimal.
Pelatihan lan Fine-Tuning Model
Resep fine-tuning kanggo model dasar multibasa open-weight - menghasilkan varian skala cloud lan varian cilik ing perangkat.
Antarmuka Chat Komunitas
AI sing bisa berbasa lokal, dideploy lewat endpoint hemat bandwidth sing bisa diakses saka smartphone sederhana lan koneksi 2G.
Toolkit Open-Source
Seluruh stack dirilis open-source supaya organisasi mana pun bisa fork, deploy, lan melayani komunitas basa anyar ing seluruh dunia.
Apa sing Kita Bangun Bareng
Empat komponen inti, masing-masing dirilis open-source sesuai perjanjian kami kanthi UNICEF Ventures, sing bersama-sama membentuk toolkit Community AI sing bisa direplikasi.
Pipeline Ingesti Data
Pengumpulan multi-kanal saka kiriman web, pesen WhatsApp, lan unggahan massal saka hub komunitas lapangan. Deteksi lan pengbusakan PII otomatis memastikan informasi pribadi tidak pernah mlebu mensing panyimpenan.
Infrastruktur Pelatihan
Resep campuran data kanggo menyeimbangkan basa lan topik. Pipeline fine-tuning ing Gemma 4 lewat Vertex AI menargetkan model cloud lan model cilik ing perangkat kanggo deployment ing wilayah rural kanthi koneksi terbatas.
Inferensi lan Chat
Endpoint serving lan antarmuka chat kanggo komunitas dalam basa lokal. Dirancang kanggo akses hemat bandwidth ing smartphone sederhana lan tetap jalan ing jaringan 2G kanthi konsumsi data mikimal.
Toolkit Open-Source
Pipeline lengkap, miwiti saka pengumpulan, pangolahan, notebook pelatihan, resep data, sampai konfigurasi inferensi, dirilis sebagai open-source. Organisasi mana pun bisa fork lan deploy kanggo kelompok basa utawa wilayah anyar.
Digital Public Good
Sebagai bagian saka investasi UNICEF Ventures, seluruh stack perangkat lunak iki dirilis sebagai Digital Public Good open-source, dirancang supaya organisasi mana pun bisa mereplikasi model Community AI kanggo basa, wilayah, lan infrastruktur anyar.
Pipeline Pengiriman Data
Endpoint pengumpulan, logika validasi, deteksi lan pembersihan PII, deduplikasi, serta penilaian kualitas, saka tahap ingest sampai jadi dataset bersih.
Notebook lan Resep Pelatihan
Notebook Jupyter kanggo konfigurasi campuran data, skrip fine-tuning, lan dokumentasi hyperparameter supaya run pelatihan model bisa direproduksi.
Konfigurasi Inferensi
Setelan serving model, konfigurasi kuantisasi kanggo deployment ing perangkat, lan spesifikasi endpoint API kanggo inferensi cloud maupun edge.
Aplikasi Web
Aplikasi web lengkap kanggo kontributor, miwiti saka formulir pengiriman, dashboard, leaderboard komunitas, sampai alat admin, siap kanggo di-deploy ing Cloud Run.
Dilanai oleh UNICEF Ventures
Basa Ibu adalah salah satu investasi portofolio UNICEF Venture Fund, sing berinvestasi ing solusi teknologi open-source tahap awal sing bermanfaat bagi bocah-bocah lan komunitas ing seluruh dunia. Kabeh hasil pengembangan platform iki dirilis sebagai Digital Public Good.
Perusahaan Portofolio UNICEF Venture Fund
Terpilih saka ratusan penndaftar amarga membangun infrastruktur AI open-source sing melayani komunitas sing kurang terwakili. Investasi iki secara khusus dikujukan kanggo ikisiatif Basa Ibu lan platform Community AI-nya, kanthi seluruh hasil pipeline dirilis sebagai Digital Public Good.
Deleng Portofolio UNICEFMari Bangun Community AI Bersama
Baik sampeyan kontributor, mitra, utawa pendukung lana, selalu ada tempat buat sampeyan ing proyek iki.