Community AI, Dibangun Terbuka
Platform end-to-end untuk mengumpulkan data percakapan secara etis dari bahasa-bahasa yang kurang terwakili dan melakukan fine-tuning model multibahasa. Berjalan native di Google Cloud dan dirilis sebagai Digital Public Good open-source yang bisa di-deploy siapa pun di mana saja.
Posisi Kami Sekarang
Platform pengumpulan data sudah live dan aktif menerima kontribusi. Ini yang sudah berjalan sekarang dan yang akan menyusul.
Platform Pengumpulan Data
- ✓ Formulir pengiriman sudah live, saat ini dibuka untuk konten Bahasa Jawa dan Bahasa Sunda
- ✓ Pipeline pemrosesan otomatis sudah berjalan (penghapusan PII, deduplikasi, penilaian kualitas)
- ✓ Dashboard statistik publik melacak jumlah kiriman dan kata secara real-time
- ✓ Rekrutmen dan onboarding kontributor komunitas sedang berjalan
Langkah Berikutnya
- ● Perluas pengumpulan ke bahasa-bahasa Indonesia lainnya
- ● Fine-tuning model di Gemma 4 lewat Vertex AI, mulai Q2 2026
- ● Antarmuka chat komunitas untuk akses AI berbahasa lokal
- ● Rilis open-source untuk toolkit pipeline lengkap
Cara Kerja Platform
Dari pengumpulan data komunitas sampai model serving, setiap tahap berjalan di infrastruktur Google Cloud dan dirancang untuk skala besar serta mudah direplikasi.
Pengumpulan Data Komunitas
Kontributor mengirim percakapan, cerita, dan teks dalam 700+ bahasa Indonesia lewat aplikasi web, WhatsApp, dan hub komunitas tatap muka. Setiap kiriman diberi tag bahasa, dialek, nada, dan topik.
Cloud RunPipeline Pemrosesan Data Otomatis
Cloud Workflows + FunctionsPenghapusan PII
Nama, nomor telepon, dan pengenal lainnya otomatis terdeteksi lalu dibersihkan sebelum data masuk ke penyimpanan.
Deduplikasi
Pencocokan fuzzy dan exact antar kiriman untuk menjaga kualitas dataset dan mencegah redundansi.
Penilaian Kualitas
Setiap kiriman dinilai berdasarkan panjang, koherensi, relevansi budaya, dan keragaman topik.
Pelatihan dan Fine-Tuning Model
Vertex AIPengemasan Dataset
Resep campuran data diseimbangkan lintas bahasa, topik, dan tingkat kualitas untuk hasil pelatihan yang optimal.
Fine-Tuning di Gemma 4
Memanfaatkan tokenizer multibahasa Gemma untuk menghasilkan varian model skala cloud dan model kecil di perangkat.
Antarmuka Chat Komunitas
AI yang bisa berbahasa lokal, dideploy lewat endpoint hemat bandwidth yang bisa diakses dari smartphone sederhana dan koneksi 2G.
Cloud RunToolkit Open-Source
Seluruh stack dirilis open-source agar organisasi mana pun bisa fork, deploy, dan melayani komunitas bahasa baru di seluruh dunia.
GitHubApa yang Kita Bangun Bareng
Empat komponen inti, masing-masing dirilis open-source sesuai perjanjian kami dengan UNICEF Ventures, yang bersama-sama membentuk toolkit Community AI yang bisa direplikasi.
Pipeline Ingesti Data
Pengumpulan multi-kanal dari kiriman web, pesan WhatsApp, dan unggahan massal dari hub komunitas lapangan. Deteksi dan penghapusan PII otomatis memastikan informasi pribadi tidak pernah masuk ke penyimpanan.
Infrastruktur Pelatihan
Resep campuran data untuk menyeimbangkan bahasa dan topik. Pipeline fine-tuning di Gemma 4 lewat Vertex AI menargetkan model cloud dan model kecil di perangkat untuk deployment di wilayah rural dengan koneksi terbatas.
Inferensi dan Chat
Endpoint serving dan antarmuka chat untuk komunitas dalam bahasa lokal. Dirancang untuk akses hemat bandwidth di smartphone sederhana dan tetap jalan di jaringan 2G dengan konsumsi data minimal.
Toolkit Open-Source
Pipeline lengkap, mulai dari pengumpulan, pemrosesan, notebook pelatihan, resep data, sampai konfigurasi inferensi, dirilis sebagai open-source. Organisasi mana pun bisa fork dan deploy untuk kelompok bahasa atau wilayah baru.
Dua Cara Deploy
Kami berjalan di Google Cloud. Tapi seluruh stack dirilis open-source sebagai Digital Public Good, jadi bisa di-deploy di infrastruktur apa pun yang cocok dengan konteksmu.
Google Cloud
Platform produksi Baibu berjalan native di GCP, dioptimalkan untuk infrastruktur Indonesia dan tooling AI dari Google.
Deploy di Mana Saja
Fork toolkit open-source ini dan jalankan di cloud mana saja atau infrastruktur on-premise. Platform ini dirancang cloud-agnostic, jadi kamu bisa pakai storage, compute, dan lapisan serving model milikmu sendiri.
Digital Public Good
Sebagai bagian dari investasi UNICEF Ventures, seluruh stack perangkat lunak ini dirilis sebagai Digital Public Good open-source, dirancang agar organisasi mana pun bisa mereplikasi model Community AI untuk bahasa, wilayah, dan infrastruktur baru.
Pipeline Pengiriman Data
Endpoint pengumpulan, logika validasi, deteksi dan pembersihan PII, deduplikasi, serta penilaian kualitas, dari tahap ingest sampai jadi dataset bersih.
Notebook dan Resep Pelatihan
Notebook Jupyter untuk konfigurasi campuran data, skrip fine-tuning, dan dokumentasi hyperparameter agar run pelatihan model bisa direproduksi.
Konfigurasi Inferensi
Pengaturan serving model, konfigurasi kuantisasi untuk deployment di perangkat, dan spesifikasi endpoint API untuk inferensi cloud maupun edge.
Aplikasi Web
Aplikasi web lengkap untuk kontributor, mulai dari formulir pengiriman, dashboard, leaderboard komunitas, sampai alat admin, siap untuk di-deploy di Cloud Run.
Didanai oleh UNICEF Ventures
Bahasa Ibu adalah salah satu investasi portofolio UNICEF Venture Fund, yang berinvestasi pada solusi teknologi open-source tahap awal yang bermanfaat bagi anak-anak dan komunitas di seluruh dunia. Semua hasil pengembangan platform ini dirilis sebagai Digital Public Good.
Perusahaan Portofolio UNICEF Venture Fund
Terpilih dari ratusan pendaftar karena membangun infrastruktur AI open-source yang melayani komunitas yang kurang terwakili. Investasi ini secara khusus ditujukan untuk inisiatif Bahasa Ibu dan platform Community AI-nya, dengan seluruh hasil pipeline dirilis sebagai Digital Public Good.
LIHAT PORTOFOLIO UNICEF ↗Mari Bangun Community AI Bersama
Baik kamu kontributor, mitra, atau pendukung dana, selalu ada tempat buat kamu di proyek ini.