Infrastruktur AI Open-Source

Community AI, Dibangun Terbuka

Platform end-to-end untuk mengumpulkan data percakapan secara etis dari bahasa-bahasa yang kurang terwakili dan melakukan fine-tuning model multibahasa. Berjalan native di Google Cloud dan dirilis sebagai Digital Public Good open-source yang bisa di-deploy siapa pun di mana saja.

Sedang Live

Posisi Kami Sekarang

Platform pengumpulan data sudah live dan aktif menerima kontribusi. Ini yang sudah berjalan sekarang dan yang akan menyusul.

Live

Platform Pengumpulan Data

  • Formulir pengiriman sudah live, saat ini dibuka untuk konten Bahasa Jawa dan Bahasa Sunda
  • Pipeline pemrosesan otomatis sudah berjalan (penghapusan PII, deduplikasi, penilaian kualitas)
  • Dashboard statistik publik melacak jumlah kiriman dan kata secara real-time
  • Rekrutmen dan onboarding kontributor komunitas sedang berjalan
LIHAT STATISTIK LIVE ↗
Roadmap

Langkah Berikutnya

  • Perluas pengumpulan ke bahasa-bahasa Indonesia lainnya
  • Fine-tuning model di Gemma 4 lewat Vertex AI, mulai Q2 2026
  • Antarmuka chat komunitas untuk akses AI berbahasa lokal
  • Rilis open-source untuk toolkit pipeline lengkap
Arsitektur

Cara Kerja Platform

Dari pengumpulan data komunitas sampai model serving, setiap tahap berjalan di infrastruktur Google Cloud dan dirancang untuk skala besar serta mudah direplikasi.

Lapisan 1

Pengumpulan Data Komunitas

Kontributor mengirim percakapan, cerita, dan teks dalam 700+ bahasa Indonesia lewat aplikasi web, WhatsApp, dan hub komunitas tatap muka. Setiap kiriman diberi tag bahasa, dialek, nada, dan topik.

Cloud Run
Lapisan 2

Pipeline Pemrosesan Data Otomatis

Cloud Workflows + Functions
Penghapusan PII

Nama, nomor telepon, dan pengenal lainnya otomatis terdeteksi lalu dibersihkan sebelum data masuk ke penyimpanan.

Deduplikasi

Pencocokan fuzzy dan exact antar kiriman untuk menjaga kualitas dataset dan mencegah redundansi.

Penilaian Kualitas

Setiap kiriman dinilai berdasarkan panjang, koherensi, relevansi budaya, dan keragaman topik.

Lapisan 3

Pelatihan dan Fine-Tuning Model

Vertex AI
Pengemasan Dataset

Resep campuran data diseimbangkan lintas bahasa, topik, dan tingkat kualitas untuk hasil pelatihan yang optimal.

Fine-Tuning di Gemma 4

Memanfaatkan tokenizer multibahasa Gemma untuk menghasilkan varian model skala cloud dan model kecil di perangkat.

Hasil

Antarmuka Chat Komunitas

AI yang bisa berbahasa lokal, dideploy lewat endpoint hemat bandwidth yang bisa diakses dari smartphone sederhana dan koneksi 2G.

Cloud Run
Hasil

Toolkit Open-Source

Seluruh stack dirilis open-source agar organisasi mana pun bisa fork, deploy, dan melayani komunitas bahasa baru di seluruh dunia.

GitHub
Stack Teknologi

Apa yang Kita Bangun Bareng

Empat komponen inti, masing-masing dirilis open-source sesuai perjanjian kami dengan UNICEF Ventures, yang bersama-sama membentuk toolkit Community AI yang bisa direplikasi.

1

Pipeline Ingesti Data

Pengumpulan multi-kanal dari kiriman web, pesan WhatsApp, dan unggahan massal dari hub komunitas lapangan. Deteksi dan penghapusan PII otomatis memastikan informasi pribadi tidak pernah masuk ke penyimpanan.

Cloud Run Cloud Workflows GCS
2

Infrastruktur Pelatihan

Resep campuran data untuk menyeimbangkan bahasa dan topik. Pipeline fine-tuning di Gemma 4 lewat Vertex AI menargetkan model cloud dan model kecil di perangkat untuk deployment di wilayah rural dengan koneksi terbatas.

Vertex AI Gemma 4
3

Inferensi dan Chat

Endpoint serving dan antarmuka chat untuk komunitas dalam bahasa lokal. Dirancang untuk akses hemat bandwidth di smartphone sederhana dan tetap jalan di jaringan 2G dengan konsumsi data minimal.

Cloud Run Cloud Functions
4

Toolkit Open-Source

Pipeline lengkap, mulai dari pengumpulan, pemrosesan, notebook pelatihan, resep data, sampai konfigurasi inferensi, dirilis sebagai open-source. Organisasi mana pun bisa fork dan deploy untuk kelompok bahasa atau wilayah baru.

Apache 2.0 GitHub

Dua Cara Deploy

Kami berjalan di Google Cloud. Tapi seluruh stack dirilis open-source sebagai Digital Public Good, jadi bisa di-deploy di infrastruktur apa pun yang cocok dengan konteksmu.

Deployment Kami

Google Cloud

Platform produksi Baibu berjalan native di GCP, dioptimalkan untuk infrastruktur Indonesia dan tooling AI dari Google.

Cloud Run Cloud Storage Vertex AI Cloud Workflows Cloud Functions Gemma 4
Deployment Kamu

Deploy di Mana Saja

Fork toolkit open-source ini dan jalankan di cloud mana saja atau infrastruktur on-premise. Platform ini dirancang cloud-agnostic, jadi kamu bisa pakai storage, compute, dan lapisan serving model milikmu sendiri.

AWS Azure On-Premise Docker Kubernetes Any LLM
Open Source

Digital Public Good

Sebagai bagian dari investasi UNICEF Ventures, seluruh stack perangkat lunak ini dirilis sebagai Digital Public Good open-source, dirancang agar organisasi mana pun bisa mereplikasi model Community AI untuk bahasa, wilayah, dan infrastruktur baru.

Pipeline Pengiriman Data

Endpoint pengumpulan, logika validasi, deteksi dan pembersihan PII, deduplikasi, serta penilaian kualitas, dari tahap ingest sampai jadi dataset bersih.

Notebook dan Resep Pelatihan

Notebook Jupyter untuk konfigurasi campuran data, skrip fine-tuning, dan dokumentasi hyperparameter agar run pelatihan model bisa direproduksi.

Konfigurasi Inferensi

Pengaturan serving model, konfigurasi kuantisasi untuk deployment di perangkat, dan spesifikasi endpoint API untuk inferensi cloud maupun edge.

Aplikasi Web

Aplikasi web lengkap untuk kontributor, mulai dari formulir pengiriman, dashboard, leaderboard komunitas, sampai alat admin, siap untuk di-deploy di Cloud Run.

Didukung Oleh

Didanai oleh UNICEF Ventures

Bahasa Ibu adalah salah satu investasi portofolio UNICEF Venture Fund, yang berinvestasi pada solusi teknologi open-source tahap awal yang bermanfaat bagi anak-anak dan komunitas di seluruh dunia. Semua hasil pengembangan platform ini dirilis sebagai Digital Public Good.

UNICEF Innovation Fund

Perusahaan Portofolio UNICEF Venture Fund

Terpilih dari ratusan pendaftar karena membangun infrastruktur AI open-source yang melayani komunitas yang kurang terwakili. Investasi ini secara khusus ditujukan untuk inisiatif Bahasa Ibu dan platform Community AI-nya, dengan seluruh hasil pipeline dirilis sebagai Digital Public Good.

LIHAT PORTOFOLIO UNICEF ↗

Mari Bangun Community AI Bersama

Baik kamu kontributor, mitra, atau pendukung dana, selalu ada tempat buat kamu di proyek ini.