INFRASTRUKTUR AI OPEN-SOURCE

Community AI, Dibangun Terbukak

Platform end-to-end kanggo mengumpulkan data pacelathon secara etis saka basa-basa sing kurang terwakili lan melakukan fine-tuning model multibasa. Berjalan native ing Google Cloud lan dirilis sebagai Digital Public Good open-source sing bisa di-deploy siapa pun ing mana saja.

SEDANG LIVE

Posisi Kami Saiki

Platform pengumpulan data sudah live lan aktif menerima kontribusi. Iki sing sudah berjalan saiki lan sing akan menyusul.

Live

Platform Pengumpulan Data

  • Formulir pengiriman sudah live, saat iki dibukak kanggo konten Basa Jawa lan Basa Sunda
  • Pipeline pangolahan otomatis sudah berjalan (pengbusakan PII, deduplikasi, penilaian kualitas)
  • Dashboard statistik publik melacak jumlah kiriman lan kata secara real-time
  • Rekrutmen lan onboarding kontributor komunitas selang berjalan
Deleng statistik live
Roadmap
🗺️

Langkah Berikutnya

  • Perluas pengumpulan mensing basa-basa Indonesia liyane
  • Fine-tuning model multibasa open-weight - miwiti Q2 2026
  • Antarmuka chat komunitas kanggo akses AI berbasa lokal
  • Rilis open-source kanggo toolkit pipeline lengkap
ARSITEKTUR

Cara Kerja Platform

Saka pengumpulan data komunitas sampai model serving, saben tahap berjalan ing infrastruktur Google Cloud lan dirancang kanggo skala gedhe serta mudah direplikasi.

1 Lapisan 1
Web · WhatsApp · Hubs

Pengumpulan Data Komunitas

Kontributor ngirim pacelathon, cerita, lan teks dalam 700+ basa Indonesia lewat aplikasi web, WhatsApp, lan hub komunitas tatap muka. Saben kiriman diberi tag basa, dialek, nada, lan topik.

2 Lapisan 2
Workflow otomatis

Pipeline Pangolahan Data Otomatis

Pengbusakan PII

Jeneng, nomer telepon, lan pengenal liyane otomatis terdeteksi lalu dibersihkan sadurunge data mlebu mensing panyimpenan.

Deduplikasi

Pencocokan fuzzy lan exact antar kiriman kanggo menjaga kualitas dataset lan mencegah redunlansi.

Penilaian Kualitas

Saben kiriman dikilai berdasarkan dawa, koherensi, relevansi budaya, lan keragaman topik.

3 Lapisan 3
Model open-weight

Pelatihan lan Fine-Tuning Model

Pengemasan Dataset

Resep campuran data diseimbangkan lintas basa, topik, lan tingkat kualitas kanggo hasil pelatihan sing optimal.

Pelatihan lan Fine-Tuning Model

Resep fine-tuning kanggo model dasar multibasa open-weight - menghasilkan varian skala cloud lan varian cilik ing perangkat.

Hasil

Antarmuka Chat Komunitas

AI sing bisa berbasa lokal, dideploy lewat endpoint hemat bandwidth sing bisa diakses saka smartphone sederhana lan koneksi 2G.

Hasil

Toolkit Open-Source

Seluruh stack dirilis open-source supaya organisasi mana pun bisa fork, deploy, lan melayani komunitas basa anyar ing seluruh dunia.

MASALAHNYA

Apa sing Kita Bangun Bareng

Empat komponen inti, masing-masing dirilis open-source sesuai perjanjian kami kanthi UNICEF Ventures, sing bersama-sama membentuk toolkit Community AI sing bisa direplikasi.

1

Pipeline Ingesti Data

Pengumpulan multi-kanal saka kiriman web, pesen WhatsApp, lan unggahan massal saka hub komunitas lapangan. Deteksi lan pengbusakan PII otomatis memastikan informasi pribadi tidak pernah mlebu mensing panyimpenan.

Form Web WhatsApp Impor Massal
2

Infrastruktur Pelatihan

Resep campuran data kanggo menyeimbangkan basa lan topik. Pipeline fine-tuning ing Gemma 4 lewat Vertex AI menargetkan model cloud lan model cilik ing perangkat kanggo deployment ing wilayah rural kanthi koneksi terbatas.

Open Weights LoRA / PEFT Kuantisasi
3

Inferensi lan Chat

Endpoint serving lan antarmuka chat kanggo komunitas dalam basa lokal. Dirancang kanggo akses hemat bandwidth ing smartphone sederhana lan tetap jalan ing jaringan 2G kanthi konsumsi data mikimal.

Bandwidth Rendah Ing Perangkat 2G Ramah
4

Toolkit Open-Source

Pipeline lengkap, miwiti saka pengumpulan, pangolahan, notebook pelatihan, resep data, sampai konfigurasi inferensi, dirilis sebagai open-source. Organisasi mana pun bisa fork lan deploy kanggo kelompok basa utawa wilayah anyar.

Apache 2.0 GitHub Cloud-Agnostic
OPEN SOURCE

Digital Public Good

Sebagai bagian saka investasi UNICEF Ventures, seluruh stack perangkat lunak iki dirilis sebagai Digital Public Good open-source, dirancang supaya organisasi mana pun bisa mereplikasi model Community AI kanggo basa, wilayah, lan infrastruktur anyar.

Pipeline Pengiriman Data

Endpoint pengumpulan, logika validasi, deteksi lan pembersihan PII, deduplikasi, serta penilaian kualitas, saka tahap ingest sampai jadi dataset bersih.

Notebook lan Resep Pelatihan

Notebook Jupyter kanggo konfigurasi campuran data, skrip fine-tuning, lan dokumentasi hyperparameter supaya run pelatihan model bisa direproduksi.

Konfigurasi Inferensi

Setelan serving model, konfigurasi kuantisasi kanggo deployment ing perangkat, lan spesifikasi endpoint API kanggo inferensi cloud maupun edge.

Aplikasi Web

Aplikasi web lengkap kanggo kontributor, miwiti saka formulir pengiriman, dashboard, leaderboard komunitas, sampai alat admin, siap kanggo di-deploy ing Cloud Run.

DIDUKUNG OLEH

Dilanai oleh UNICEF Ventures

Basa Ibu adalah salah satu investasi portofolio UNICEF Venture Fund, sing berinvestasi ing solusi teknologi open-source tahap awal sing bermanfaat bagi bocah-bocah lan komunitas ing seluruh dunia. Kabeh hasil pengembangan platform iki dirilis sebagai Digital Public Good.

UNICEF Innovation Fund

Perusahaan Portofolio UNICEF Venture Fund

Terpilih saka ratusan penndaftar amarga membangun infrastruktur AI open-source sing melayani komunitas sing kurang terwakili. Investasi iki secara khusus dikujukan kanggo ikisiatif Basa Ibu lan platform Community AI-nya, kanthi seluruh hasil pipeline dirilis sebagai Digital Public Good.

Deleng Portofolio UNICEF

Mari Bangun Community AI Bersama

Baik sampeyan kontributor, mitra, utawa pendukung lana, selalu ada tempat buat sampeyan ing proyek iki.