INFRASTRUKTUR AI OPEN-SOURCE

Community AI, Dibangun Terbuka

Platform end-to-end untuk mengumpulkan data percakapan secara etis dari bahasa-bahasa yang kurang terwakili dan melakukan fine-tuning model multibahasa. Berjalan native di Google Cloud dan dirilis sebagai Digital Public Good open-source yang bisa di-deploy siapa pun di mana saja.

SEDANG LIVE

Posisi Kami Sekarang

Platform pengumpulan data sudah live dan aktif menerima kontribusi. Ini yang sudah berjalan sekarang dan yang akan menyusul.

Live

Platform Pengumpulan Data

  • Formulir pengiriman sudah live, saat ini dibuka untuk konten Bahasa Jawa dan Bahasa Sunda
  • Pipeline pemrosesan otomatis sudah berjalan (penghapusan PII, deduplikasi, penilaian kualitas)
  • Dashboard statistik publik melacak jumlah kiriman dan kata secara real-time
  • Rekrutmen dan onboarding kontributor komunitas sedang berjalan
Lihat statistik live
Roadmap
🗺️

Langkah Berikutnya

  • Perluas pengumpulan ke bahasa-bahasa Indonesia lainnya
  • Fine-tuning model multibahasa open-weight - mulai Q2 2026
  • Antarmuka chat komunitas untuk akses AI berbahasa lokal
  • Rilis open-source untuk toolkit pipeline lengkap
ARSITEKTUR

Cara Kerja Platform

Dari pengumpulan data komunitas sampai model serving, setiap tahap berjalan di infrastruktur Google Cloud dan dirancang untuk skala besar serta mudah direplikasi.

1 Lapisan 1
Web · WhatsApp · Hubs

Pengumpulan Data Komunitas

Kontributor mengirim percakapan, cerita, dan teks dalam 700+ bahasa Indonesia lewat aplikasi web, WhatsApp, dan hub komunitas tatap muka. Setiap kiriman diberi tag bahasa, dialek, nada, dan topik.

2 Lapisan 2
Workflow otomatis

Pipeline Pemrosesan Data Otomatis

Penghapusan PII

Nama, nomor telepon, dan pengenal lainnya otomatis terdeteksi lalu dibersihkan sebelum data masuk ke penyimpanan.

Deduplikasi

Pencocokan fuzzy dan exact antar kiriman untuk menjaga kualitas dataset dan mencegah redundansi.

Penilaian Kualitas

Setiap kiriman dinilai berdasarkan panjang, koherensi, relevansi budaya, dan keragaman topik.

3 Lapisan 3
Model open-weight

Pelatihan dan Fine-Tuning Model

Pengemasan Dataset

Resep campuran data diseimbangkan lintas bahasa, topik, dan tingkat kualitas untuk hasil pelatihan yang optimal.

Pelatihan dan Fine-Tuning Model

Resep fine-tuning untuk model dasar multibahasa open-weight - menghasilkan varian skala cloud dan varian kecil di perangkat.

Hasil

Antarmuka Chat Komunitas

AI yang bisa berbahasa lokal, dideploy lewat endpoint hemat bandwidth yang bisa diakses dari smartphone sederhana dan koneksi 2G.

Hasil

Toolkit Open-Source

Seluruh stack dirilis open-source agar organisasi mana pun bisa fork, deploy, dan melayani komunitas bahasa baru di seluruh dunia.

MASALAHNYA

Apa yang Kita Bangun Bareng

Empat komponen inti, masing-masing dirilis open-source sesuai perjanjian kami dengan UNICEF Ventures, yang bersama-sama membentuk toolkit Community AI yang bisa direplikasi.

1

Pipeline Ingesti Data

Pengumpulan multi-kanal dari kiriman web, pesan WhatsApp, dan unggahan massal dari hub komunitas lapangan. Deteksi dan penghapusan PII otomatis memastikan informasi pribadi tidak pernah masuk ke penyimpanan.

Form Web WhatsApp Impor Massal
2

Infrastruktur Pelatihan

Resep campuran data untuk menyeimbangkan bahasa dan topik. Pipeline fine-tuning di Gemma 4 lewat Vertex AI menargetkan model cloud dan model kecil di perangkat untuk deployment di wilayah rural dengan koneksi terbatas.

Open Weights LoRA / PEFT Kuantisasi
3

Inferensi dan Chat

Endpoint serving dan antarmuka chat untuk komunitas dalam bahasa lokal. Dirancang untuk akses hemat bandwidth di smartphone sederhana dan tetap jalan di jaringan 2G dengan konsumsi data minimal.

Bandwidth Rendah Di Perangkat 2G Ramah
4

Toolkit Open-Source

Pipeline lengkap, mulai dari pengumpulan, pemrosesan, notebook pelatihan, resep data, sampai konfigurasi inferensi, dirilis sebagai open-source. Organisasi mana pun bisa fork dan deploy untuk kelompok bahasa atau wilayah baru.

Apache 2.0 GitHub Cloud-Agnostic
OPEN SOURCE

Digital Public Good

Sebagai bagian dari investasi UNICEF Ventures, seluruh stack perangkat lunak ini dirilis sebagai Digital Public Good open-source, dirancang agar organisasi mana pun bisa mereplikasi model Community AI untuk bahasa, wilayah, dan infrastruktur baru.

Pipeline Pengiriman Data

Endpoint pengumpulan, logika validasi, deteksi dan pembersihan PII, deduplikasi, serta penilaian kualitas, dari tahap ingest sampai jadi dataset bersih.

Notebook dan Resep Pelatihan

Notebook Jupyter untuk konfigurasi campuran data, skrip fine-tuning, dan dokumentasi hyperparameter agar run pelatihan model bisa direproduksi.

Konfigurasi Inferensi

Pengaturan serving model, konfigurasi kuantisasi untuk deployment di perangkat, dan spesifikasi endpoint API untuk inferensi cloud maupun edge.

Aplikasi Web

Aplikasi web lengkap untuk kontributor, mulai dari formulir pengiriman, dashboard, leaderboard komunitas, sampai alat admin, siap untuk di-deploy di Cloud Run.

DIDUKUNG OLEH

Didanai oleh UNICEF Ventures

Bahasa Ibu adalah salah satu investasi portofolio UNICEF Venture Fund, yang berinvestasi pada solusi teknologi open-source tahap awal yang bermanfaat bagi anak-anak dan komunitas di seluruh dunia. Semua hasil pengembangan platform ini dirilis sebagai Digital Public Good.

UNICEF Innovation Fund

Perusahaan Portofolio UNICEF Venture Fund

Terpilih dari ratusan pendaftar karena membangun infrastruktur AI open-source yang melayani komunitas yang kurang terwakili. Investasi ini secara khusus ditujukan untuk inisiatif Bahasa Ibu dan platform Community AI-nya, dengan seluruh hasil pipeline dirilis sebagai Digital Public Good.

Lihat Portofolio UNICEF

Mari Bangun Community AI Bersama

Baik kamu kontributor, mitra, atau pendukung dana, selalu ada tempat buat kamu di proyek ini.