Git Product home page Git Product logo

indommlu's Introduction

IndoMMLU

Fajri Koto, Nurul Aisyah, Haonan Li, Timothy Baldwin

Bahasa Indonesia | English

๐Ÿ“„ Paper โ€ข ๐Ÿ† Leaderboard โ€ข ๐Ÿค— Dataset

Pengantar

IndoMMLU merupakan sebuah dataset berbahasa Indonesia pertama untuk multi-task language understanding. Dataset ini berisikan kumpulan soal berbagai mata pelajaran dari jenjang Sekolah Dasar, Sekolah Menengah Pertama, Sekolah Menengah Atas, dan Ujian Seleksi Masuk Perguruan Tinggi di Indonesia. IndoMMLU berbasiskan kurikulum pendidikan Indonesia dan memiliki 14.906 pertanyaan, dan 63 tasks (kombinasi mata pelajaran dan jenjang sekolah). 46% pertanyaan IndoMMLU berfokus pada soal bahasa Indonesia dan muatan lokal bahasa daerah yang ada di Indonesia. Ini mencakup mata pelajaran Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Budaya Alam Minangkabau (BAM), dan Bahasa Dayak Ngaju.

Data

Setiap pertanyaan dalam dataset ini merupakan soal pilihan ganda dengan 3-5 pilihan, dengan hanya satu jawaban benar. Dataset (mentah) yang digunakan untuk eksperimen pada paper tersedia di folder data. Untuk versi data yang lebih rapi, Anda disarankan untuk mengakses data di tautan Hugging Face.

import datasets
data = datasets.load_dataset('indolem/IndoMMLU')

Mata Pelajaran

Jenjang Mata Pelajaran
SD (Sekolah Dasar) IPA, IPS, PPKN, Bahasa Indonesia, Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Budaya Alam Minangkabau (BAM), Bahasa Dayak Ngaju, Pendidikan Seni, Olah Raga, Agama Islam, Agama Kristen, Agama Hindu
SMP (Sekolah Menengah Pertama) IPA, IPS, PPKN, Bahasa Indonesia, Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Budaya Alam Minangkabau (BAM), Pendidikan Seni, Olah Raga, Agama Islam, Agama Kristen, Agama Hindu
SMA (Sekolah Menengah Atas) PPKN, Fisika, Kimia, Biologi, Geografi, Sosiologi, Ekonomi, Sejarah, PPKN, Bahasa Indonesia, Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Pendidikan Seni, Olah Raga, Agama Islam, Agama Kristen, Agama Hindu
Ujian Seleksi Masuk Perguruan Tinggi Kimia, Biologi, Geografi, Sosiologi, Ekonomi, Sejarah, Bahasa Indonesia

Kami mengelompokkan pertanyaan-pertanyaan IndoMMLU kedalam 5 kelompok besar, yaitu: (1) STEM (Ilmu Alama, Teknologi, Teknik, and Matematika); (2) Ilmu Sosial; (3) Humaniora; (4) Bahasa Indonesia; and (5) Bahasa dan Budaya Lokal.

Contoh Pertanyaan

Pertanyaan-pertanyaan IndoMMLU tertulis dalam bahasa Indonesia. Untuk mata pelajaran bahasa dan budaya daerah, beberapa tertulis dalam bahasa daerah tersebut. Bahasa Inggris yang ada pada contoh di bawah ini hanya sebagai pelengkap untuk penulisan paper.

Evaluasi

Kami mengevaluasi 24 LLM multibahasa dalam ukuran berbeda dengan pengaturan zero-shot dan few-shot. In termasuk GPT-3.5 (ChatGPT), XGLM, Falcon, BLOOMZ, mT0, LLaMA, and Bactrian-X. Sebelum pertanyaan dan pilihan ganda, kami menambahkan sebuah prompt dalam bahasa Indonesia:

Ini adalah soal [subject] untuk [level]. Pilihlah salah satu jawaban yang dianggap benar!

Untuk menjalankan kode evaluasi, silakan melihat script run.sh

Evaluasi Zero-shot

Model (#param) STEM Social Science Humanities Indonesian Lang. Local L. Culture Average
Random 21.9 23.4 23.5 24.4 26.6 24.4
GPT-3.5 (175B) 54.3 62.5 64.0 62.2 39.3 53.2
XGLM (564M) 22.1 23.0 25.6 25.6 27.5 25.2
XGLM (1.7B) 20.9 23.0 24.6 24.8 26.6 24.4
XGLM (2.9B) 22.9 23.2 25.4 26.3 27.2 25.2
XGLM (4.5B) 21.8 23.1 25.6 25.8 27.1 25.0
XGLM (7.5B) 22.7 21.7 23.6 24.5 27.5 24.5
Falcon (7B) 22.1 22.9 25.5 25.7 27.5 25.1
Falcon (40B) 30.2 34.8 34.8 34.9 29.2 32.1
BLOOMZ (560M) 22.9 23.6 23.2 24.2 25.1 24.0
BLOOMZ (1.1B) 20.4 21.4 21.1 23.5 24.7 22.4
BLOOMZ (1.7B) 31.5 39.3 38.3 42.8 29.4 34.4
BLOOMZ (3B) 33.5 44.5 39.7 46.7 29.8 36.4
BLOOMZ (7.1B) 37.1 46.7 44.0 49.1 28.2 38.0
mT0small (300M) 21.8 21.4 25.7 25.1 27.6 24.9
mT0base (580M) 22.6 22.6 25.7 25.6 26.9 25.0
mT0large (1.2B) 22.0 23.4 25.1 27.3 27.6 25.2
mT0xl (3.7B) 31.4 42.9 41.0 47.8 35.7 38.2
mT0xxl (13B) 33.5 46.2 47.9 52.6 39.6 42.5
LLaMA (7B) 22.8 23.1 25.1 26.7 27.6 25.3
LLaMA (13B) 24.1 23.0 24.4 29.5 26.7 25.3
LLaMA (30B) 25.4 23.5 25.9 28.4 28.7 26.5
LLaMA (65B) 33.0 37.7 40.8 41.4 32.1 35.8
Bactrian-X-LLaMA (7B) 23.3 24.0 26.0 26.1 27.5 25.7
Bactrian-X-LLaMA (13B) 28.3 29.9 32.8 35.2 29.2 30.3

Performa GPT-3.5 (ChatGPT) dalam berbagai level pendidikan

Warna merah mengindikasikan bahwa nilai GPT-3.5 tidak tuntas (di bawah Kriteria Kelulusan Minimal / KKM 65.0), sementara warna hijau menyatakan bahwa nilai GPT-3.5 di atas KKM. Secara keseluruhan, bisa dilihat bahwa ChatGPT umumnya hanya lulus ujian tingkat Sekolah Dasar.

Few-shot Evaluation

Pengutipan

Jangan lupa untuk membaca dan mengutip paper kami yang dipublikasikan di main conference EMNLP 2023.

@inproceedings{koto-etal-2023-indommlu,
    title = "Large Language Models Only Pass Primary School Exams in {I}ndonesia: A Comprehensive Test on {I}ndo{MMLU}",
    author = "Fajri Koto and Nurul Aisyah and Haonan Li and Timothy Baldwin",
    booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = December,
    year = "2023",
    address = "Singapore",
    publisher = "Association for Computational Linguistics",
}

License

The IndoMMLU dataset is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

indommlu's People

Contributors

fajri91 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    ๐Ÿ–– Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. ๐Ÿ“Š๐Ÿ“ˆ๐ŸŽ‰

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google โค๏ธ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.