Community AI, Dibangun Terbuka
Platform end-to-end untuk mengumpulkan data percakapan secara etis dari bahasa-bahasa yang kurang terwakili dan melakukan fine-tuning model multibahasa. Berjalan native di Google Cloud dan dirilis sebagai Digital Public Good open-source yang bisa di-deploy siapa pun di mana saja.
Posisi Kami Sekarang
Platform pengumpulan data sudah live dan aktif menerima kontribusi. Ini yang sudah berjalan sekarang dan yang akan menyusul.
Platform Pengumpulan Data
- ✓Formulir pengiriman sudah live, saat ini dibuka untuk konten Bahasa Jawa dan Bahasa Sunda
- ✓Pipeline pemrosesan otomatis sudah berjalan (penghapusan PII, deduplikasi, penilaian kualitas)
- ✓Dashboard statistik publik melacak jumlah kiriman dan kata secara real-time
- ✓Rekrutmen dan onboarding kontributor komunitas sedang berjalan
Langkah Berikutnya
- ●Perluas pengumpulan ke bahasa-bahasa Indonesia lainnya
- ●Fine-tuning model multibahasa open-weight - mulai Q2 2026
- ●Antarmuka chat komunitas untuk akses AI berbahasa lokal
- ●Rilis open-source untuk toolkit pipeline lengkap
Cara Kerja Platform
Dari pengumpulan data komunitas sampai model serving, setiap tahap berjalan di infrastruktur Google Cloud dan dirancang untuk skala besar serta mudah direplikasi.
Pengumpulan Data Komunitas
Kontributor mengirim percakapan, cerita, dan teks dalam 700+ bahasa Indonesia lewat aplikasi web, WhatsApp, dan hub komunitas tatap muka. Setiap kiriman diberi tag bahasa, dialek, nada, dan topik.
Pipeline Pemrosesan Data Otomatis
Penghapusan PII
Nama, nomor telepon, dan pengenal lainnya otomatis terdeteksi lalu dibersihkan sebelum data masuk ke penyimpanan.
Deduplikasi
Pencocokan fuzzy dan exact antar kiriman untuk menjaga kualitas dataset dan mencegah redundansi.
Penilaian Kualitas
Setiap kiriman dinilai berdasarkan panjang, koherensi, relevansi budaya, dan keragaman topik.
Pelatihan dan Fine-Tuning Model
Pengemasan Dataset
Resep campuran data diseimbangkan lintas bahasa, topik, dan tingkat kualitas untuk hasil pelatihan yang optimal.
Pelatihan dan Fine-Tuning Model
Resep fine-tuning untuk model dasar multibahasa open-weight - menghasilkan varian skala cloud dan varian kecil di perangkat.
Antarmuka Chat Komunitas
AI yang bisa berbahasa lokal, dideploy lewat endpoint hemat bandwidth yang bisa diakses dari smartphone sederhana dan koneksi 2G.
Toolkit Open-Source
Seluruh stack dirilis open-source agar organisasi mana pun bisa fork, deploy, dan melayani komunitas bahasa baru di seluruh dunia.
Apa yang Kita Bangun Bareng
Empat komponen inti, masing-masing dirilis open-source sesuai perjanjian kami dengan UNICEF Ventures, yang bersama-sama membentuk toolkit Community AI yang bisa direplikasi.
Pipeline Ingesti Data
Pengumpulan multi-kanal dari kiriman web, pesan WhatsApp, dan unggahan massal dari hub komunitas lapangan. Deteksi dan penghapusan PII otomatis memastikan informasi pribadi tidak pernah masuk ke penyimpanan.
Infrastruktur Pelatihan
Resep campuran data untuk menyeimbangkan bahasa dan topik. Pipeline fine-tuning di Gemma 4 lewat Vertex AI menargetkan model cloud dan model kecil di perangkat untuk deployment di wilayah rural dengan koneksi terbatas.
Inferensi dan Chat
Endpoint serving dan antarmuka chat untuk komunitas dalam bahasa lokal. Dirancang untuk akses hemat bandwidth di smartphone sederhana dan tetap jalan di jaringan 2G dengan konsumsi data minimal.
Toolkit Open-Source
Pipeline lengkap, mulai dari pengumpulan, pemrosesan, notebook pelatihan, resep data, sampai konfigurasi inferensi, dirilis sebagai open-source. Organisasi mana pun bisa fork dan deploy untuk kelompok bahasa atau wilayah baru.
Digital Public Good
Sebagai bagian dari investasi UNICEF Ventures, seluruh stack perangkat lunak ini dirilis sebagai Digital Public Good open-source, dirancang agar organisasi mana pun bisa mereplikasi model Community AI untuk bahasa, wilayah, dan infrastruktur baru.
Pipeline Pengiriman Data
Endpoint pengumpulan, logika validasi, deteksi dan pembersihan PII, deduplikasi, serta penilaian kualitas, dari tahap ingest sampai jadi dataset bersih.
Notebook dan Resep Pelatihan
Notebook Jupyter untuk konfigurasi campuran data, skrip fine-tuning, dan dokumentasi hyperparameter agar run pelatihan model bisa direproduksi.
Konfigurasi Inferensi
Pengaturan serving model, konfigurasi kuantisasi untuk deployment di perangkat, dan spesifikasi endpoint API untuk inferensi cloud maupun edge.
Aplikasi Web
Aplikasi web lengkap untuk kontributor, mulai dari formulir pengiriman, dashboard, leaderboard komunitas, sampai alat admin, siap untuk di-deploy di Cloud Run.
Didanai oleh UNICEF Ventures
Bahasa Ibu adalah salah satu investasi portofolio UNICEF Venture Fund, yang berinvestasi pada solusi teknologi open-source tahap awal yang bermanfaat bagi anak-anak dan komunitas di seluruh dunia. Semua hasil pengembangan platform ini dirilis sebagai Digital Public Good.
Perusahaan Portofolio UNICEF Venture Fund
Terpilih dari ratusan pendaftar karena membangun infrastruktur AI open-source yang melayani komunitas yang kurang terwakili. Investasi ini secara khusus ditujukan untuk inisiatif Bahasa Ibu dan platform Community AI-nya, dengan seluruh hasil pipeline dirilis sebagai Digital Public Good.
Lihat Portofolio UNICEFMari Bangun Community AI Bersama
Baik kamu kontributor, mitra, atau pendukung dana, selalu ada tempat buat kamu di proyek ini.