ANAK FMIPA

Blognya Anak Fmipa

Anak Fmipa

LightBlog

Thursday, November 30, 2017

Teknik Analisis Data Teknologi Terbaru

Teknologi Terbaru Sistem Analisis Data
Teknik Analisis Data 

Dalam analisis kumpulan data yang besar, langkah pertama biasanya adalah identifikasi "fitur" - titik data dengan daya prediksi atau utilitas analitik tertentu. Memilih fitur biasanya membutuhkan beberapa intuisi manusia. Misalnya, basis data penjualan mungkin berisi pendapatan dan rentang tanggal, namun mungkin diperlukan manusia untuk menyadari bahwa pendapatan rata-rata - pendapatan dibagi dengan ukuran rentang - adalah metrik yang sangat berguna.

Peneliti MIT telah mengembangkan alat kolaborasi baru, yang dijuluki FeatureHub, yang dimaksudkan untuk membuat identifikasi fitur lebih efisien dan efektif. Dengan FeatureHub, ilmuwan data dan pakar mengenai topik tertentu dapat masuk ke situs utama dan menghabiskan satu atau dua jam untuk meninjau masalah dan mengusulkan fitur. Perangkat lunak kemudian menguji berbagai kombinasi fitur terhadap data target, untuk menentukan mana yang paling berguna untuk tugas prediksi tertentu.

Dalam tes, para periset merekrut 32 analis dengan pengalaman ilmu data, yang menghabiskan lima jam masing-masing sistem, membiasakan diri dengannya dan menggunakannya untuk mengajukan fitur kandidat untuk masing-masing dua masalah data-sains.

Model prediktif yang dihasilkan oleh sistem diuji terhadap yang diajukan ke kompetisi data-science yang disebut Kaggle. Entri Kaggle telah dinilai pada skala 100 poin, dan model FeatureHub berada dalam tiga dan lima poin dari entri pemenang untuk dua masalah tersebut.

Tapi di mana entri top-scoring adalah hasil dari minggu atau bahkan berbulan-bulan kerja, entri FeatureHub diproduksi dalam hitungan hari. Dan sementara 32 kolaborator dalam satu proyek sains data banyak menggunakan standar hari ini, Micah Smith, seorang mahasiswa pascasarjana MIT di bidang teknik elektro dan sains komputer yang membantu memimpin proyek ini, memiliki ambisi yang jauh lebih besar.

FeatureHub - seperti namanya - terinspirasi oleh GitHub, sebuah repositori online dari proyek pemrograman open-source, beberapa di antaranya telah menarik ribuan kontributornya. Smith berharap bahwa FeatureHub suatu hari nanti bisa mencapai skala yang serupa.

"Saya berharap dapat memfasilitasi ribuan orang untuk mengerjakan satu solusi untuk memprediksi di mana kecelakaan lalu lintas paling mungkin terjadi di New York City atau memprediksi pasien mana di rumah sakit yang paling mungkin memerlukan intervensi medis," katanya. . "Saya berpikir bahwa konsep sains data yang besar dan terbuka dapat benar-benar dimanfaatkan untuk area dimana ada dampak sosial yang kuat namun tidak harus menghasilkan satu atau organisasi pemerintah yang mengkoordinasikan tanggapan."

Smith dan rekan-rekannya mempresentasikan sebuah makalah yang menjelaskan FiturHub di Konferensi Internasional IEEE tentang Ilmu Data dan Analisis Lanjutan. Rekan penulisnya di atas kertas adalah penasihat tesisnya, Kalyan Veeramachaneni, seorang ilmuwan riset utama di MIT Laboratory for Information and Decision Systems, dan Roy Wedge, yang mulai bekerja dengan kelompok Veeramachaneni sebagai sarjana MIT dan sekarang menjadi insinyur perangkat lunak di Lab Fitur, sebuah perusahaan ilmu data yang berbasis pada kelompok kerja.

Antarmuka pengguna FeatureHub dibangun di atas rangkaian perangkat lunak analisis data umum yang disebut Notebook Jupyter, dan evaluasi rangkaian fitur dilakukan oleh paket perangkat lunak pembelajaran standar. Fitur harus ditulis dalam bahasa pemrograman Python, namun desain mereka harus mengikuti template yang sengaja membuat sintaks sederhana. Fitur khas mungkin memerlukan antara lima dan 10 baris kode.

Peneliti MIT menulis kode yang menengahi antara paket perangkat lunak lainnya dan mengelola data, menggabungkan fitur yang diajukan oleh banyak pengguna dan melacak koleksi fitur yang paling sesuai untuk tugas analisis data tertentu.

Di masa lalu, kelompok Veeramachaneni telah mengembangkan perangkat lunak yang secara otomatis menghasilkan fitur dengan menyimpulkan hubungan antara data dari cara mereka diorganisir. Bila informasi organisasi tersebut hilang, pendekatannya kurang efektif.

Namun, Smith membayangkan, sintesis fitur otomatis dapat digunakan bersamaan dengan fiturHub, memulai proyek sebelum relawan mulai berkontribusi pada mereka, menyelamatkan pekerjaan kasar dari pencacahan fitur yang jelas, dan menambah fitur berkinerja terbaik yang disumbangkan oleh manusia

3 comments: