PACMANN AI – Machine Learning For Beginner

Single Variable Calculus, Multivariable Calculus, Linear Algebra, Probability and Statistics, dan Introduction to Statistical Learning. Semua ini adalah materi yang perlu aku pelajari untuk mempelajari Machine Learning… wat

PACMANN AI
Satu-satunya anak SMA yang ada di pelatihan ini 😀

Aku datang ke workshop ini tanpa persiapan sama sekali. Aku mendengar tentang acara ini dari Om Imron, CTO Dattabot, yang aku temui ketika sedang ikut bapak dan ibu untuk acara di ESOA. Karena aku memang sudah ada keinginan untuk magang di Dattabot, aku menawarkan diri dan meminta kesempatan untuk magang. Mungkin ingin melihat seberapa serius aku Om Imron menyarankan aku ikut acara belajar Machine Learning bersama PACMANN AI yang akan dilaksanakan pada tanggal 20-24 Februari.

Tapi…. pendaftaran acara ditutup tanggal 18, sedangkan aku baru tahu tentang acara ini tanggal 19. Om Imron menyarankan aku langsung datang ke lokasi acara, kalau tidak bisa ya sudah :P. Awalnya aku agak ragu-ragu karena tempat, acara, dan panitia nya aku benar-benar tidak kenal. Akhirnya setelah mengobrol dengan bapak aku mendorong diriku untuk datang karena kalau pun tidak bisa masuk, aku masih bisa lihat-lihat kantor Dattabot.

ERUDIOEKSPLORASI

Waktu menunjukkan pukul 17:00, aku sudah siap berangkat dengan hati yang berdebar karena ini adalah pengalaman baru untuk skill yang baru. Aku berangkat naik busway lalu di halte terdekat naik Go-Jek dan jalanan sangatlah macet. Untungnya aku sampai di Dattabot Dojo kurang lebih tepat. Yang membuat kaget adalah… sampai di sana, melihat ke Dattabot Dojo dan ternyata tempatnya sedang dipakai untuk acara lain (aku lupa apa).

Panik langsung karena aku ada ditempat yang tidak diketahui dan acara nya tidak ada. Akhirnya setelah duduk untuk menenangkan kepala aku menelepon CP acara nya dan ternyata lokasinya di pindah ke Deka Marketing yang jaraknya kurang lebih 5 menit dari sana. Aku agak ragu untuk masuk karena aku masuk sudah sekitar pukul 19, takutnya sudah tidak bisa masuk. Sampai di sana ada dua orang lain yang baru masuk juga, dan ternyata tidak ada pendaftaran lebih awal dulu 😀

Di dalam ada kak Adityo Sanjaya yang sedang menjelaskan tentang dasar-dasar Machine Learning. Sudah ada sekitar 35an orang dan tampaknya masih banyak yang datang lagi. Mas Adit sedang menjelaskan apa itu Machine Learning, siapa yang mencetuskan nya, yang mengkontribusikan agar menjadi seperti sekarang, penggunaan nya, dan banyak lagi. Aku dapat mengikuti interpretasi dengan baik, aku lumayan mengerti sebagian besar yang dibicarakan. Namun masih ada perasaan takut tidak bisa lanjut lagi sampai satu konversasi ini:

Mas Adit: Jadi di sini siapa yang belum ngerti linear regression?

Aku: Saya mas (Ngacung Sendirian)

Mas Adit: Oh iya, mas profesinya apa mas?

Aku: Pelajar mas

Mas Adit: Ohh… kuliah jurusan apa mas?

Aku: Masih SMA mas… hehehe

Mas Adit: Waduh! Saya tau dengan pasti gak ada anak SMA yang daftar.

Aku: Iya mas baru dikasih tahu kemarin sama Om Imron terus katanya datang aja.

Mas Adit: Wah hebat-hebat, anak SMA aja dateng. Nanti belajar ya 😀

Dengan ini hilang semua keraguan tentang boleh ikut dan bisa atau tidak. Sangatlah menarik berbagai aplikasi dan penggunaan Machine Learning yang mungkin tidak terlihat seperti di Search Engine Google dan Facebook. Acara selesai sekitar pukul 9:30 dan ketika selesai aku di hampiri oleh salah satu peserta yang tadi banyak bertanya. Namanya adalah Takamine dan dia datang dari Jepang untuk bekerja di perusahaan nya yang sedang buka cabang di Indonesia. Dalam waktu lima hari ke depan aku mengobrol lumayan banyak dengannya tentang kegiatan dan ketertarikan aku pada Machine Learning pada usia yang masih relatif muda.

Karena banyak sekali yang di pelajari dan banyak bahasa-bahasa yang aku sendiri masih belum mengerti jadi aku akan menuliskan pengertianku tentang materi yang kemarin diajarkan.

Linear Regression

Linear Regression adalah model yang bisa dibilang paling simple, Linear Regression bermain dengan variable garis lurus yang sudah aku pelajari di Algebra I. Di sini komputer akan memilih sebuah slope secara acak lalu melihat seberapa banyak errornya. Setelah itu komputer akan mencoba lagi dan membandingkan error yang mana yang lebih kecil. Proses ini diulang terus hingga komputer menemukan error yang paling rendah.

Contoh Linear Regression
Contoh Linear Regression

Linear Regression hanya bisa digunakan jika data y tergantung dengan data x. Salah satu yang mungkin membuat hasil Linear Regression adalah outlier yang bisa sangat mengubah data.

Contoh Outlier
Contoh Outlier

Decision Tree

Yang selanjutnya adalah Decision Tree, metode yang paling banyak di ekplorasi dalam beberapa hari ini. Decision Tree adalah sebuah teknik yang sudah sering digunakan karena menggunakan teori if/else. Yang berbeda adalah di sini kita hanya membuat parameter untuk menyuruh komputer membuat if/else yang akhirnya menjadi Decision Tree. Untuk itu kita harus memilih atribut apa yang akan kita gunakan untuk memisahkan variablenya. Salah satu cara untuk menentukannya adalah:

  • Random: Memilih atribut secara acak
  • Least-Values: Atribut yang jumlahnya paling rendah
  • Most-Values: Atribut yang jumlahnya paling tinggi
  • Max-Gain: Attribut yang memberikan informasi paling tinggi

Setelah itu ada berbagai cara untuk mencari pola dan mencari model yang nilai errornya paling rendah.

Overfitting

Satu masalah yang sering di hadapi ketika baru mulai belajar Machine Learning adalah ketika mereka mengubah Decision Tree mereka sedemikian rupa dimana error ratenya 0% di data Training. Mungkin jadinya agak bingung, kenapa kok error ratenya 0% malah jelek? Masalahnya adalah ketika kita menggunakan data test hampir pasti errornya naik dan biasanya lebih rendah daripada benchmark.

Salah satu cara untuk mengurangi overfitting adalah dengan melakukan prunning atau pemotongan “cabang” yang terlalu panjang. Cara ini harus dilakukan beberapa kali lalu di bandingkan dengan prunning yang lain untuk mendapatkan hasil terbaik.

Bagging (Bootstrap Aggregating)

Bagging atau Bootstrap Aggregating adalah salah satu cara untuk menstabilkan hasil tes dan mengurangi overfitting. Teknik Bagging membagi data training sama rata menjadi N (misalkan 10) lalu memilih salah satu dari N untuk menjadi “test”-nya dan yang lain untuk menjadi “train”. Proses ini diulang terus hingga semua N telah menjadi “test” lalu kita ambil rata-rata dari semua hasil. Ini menurunkan kesempatan sebuah outlier untuk mengubah predikisi dengan terlalu besar.

Related Posts