BIG DATA BIG PERFORMANCE

UNIVERSITAS BINA NUSANTARA
Jurusan Sistem Informasi
School of Information Systems
Laporan Karya Ilmiah Topik – Topik Lanjutan
Semester Genap 2013/2014

BIG DATA BIG PERFORMANCE

Cici Permata Belisa        1501193170
Herawati Hardi               1501189791
Tri Ako Nugroho            1501192382
David Ricardo          1501191726
Kelas : 06 PJM /Kelompok 1

Abstrak
    Big Data adala sebuah masalah penumpukkan data yang terjadi akibat terjadinya transaksi data dari berbagai sumber, perkembangan teknologi, dan kebutuhan informasi dimana penumpukkan data tersebut tidak bisa ditampung. Sehingga menimbulkan berbagai masalah seperti mengalami kesulitan dalam mengintegrasi sistem, akibat tidak mampu mengakomodasikan data. Dengan mengetahui hal tentang Big Data, sebuah organisasi atau perusaaan dapat mencari solusi untuk mengatasi masalah yang ditimbulkan akibat dari Big Data. Paper ini mempunyai pembahasan mengenai Big Data, manfaat dari Big Data, dan berbagai hal untuk mengatasi dari Big Data, karena memiliki kemampuan yang besar jika dapat mengatasi hal tentang Big Data tersebut.

Kata Kunci :
Big Data, integrasi sistem, mengakomodasi sistem

BAB 1

PENDAHULUAN

1.1    Latar Belakang
    Dalam setiap data akan memberi pengaruh terhadap kebutuhan informasi didalam suatu perusahaan. Dalam istilah “Big Data” dalam pegertian secara harafiah adalah sedikit demi sedikit lama-lam menjadi bukit, demikianlah yang dialami setiap perusahaan atau organisasi yang menyimpan setiap datanya dengan berbagai tipe data yang mengalami penumpukan data dalam menampung data transaksi. Big data saat ini telah menjadi fokus utama dalam bidang IT didalam suatu perusahan, padahal permasalahan ini telah terjadi sejak dimulainya era informasi. Perkembangan volume dan jenis data akan terus meningkat semenjak dimulainya adalah suatu nilai informasi yang berguna.
    Namun inilah yang terus menjadi masalah dalam menampung setiap volume dan jenis data, yang bisa disebut Big Data. Bahkan pengelolaan Big Data sangat perlu dilakukan oleh perusahaan untuk mengelola data yang diperolehnya untuk mengelola bisnis perusahaan yang lebih baik. Bahkan Big Data telah menjadi budaya baru dimana tentu akan berbeda setiap perusahaan dalam mengatasi kumpulan data yang besar. Apalagi era informasi yang secara global menambah permasalahan dalam volume dan jenis data yang bisa diperoleh suatu perusahaan.
    Begitu pun juga dalam perkembangan teknologi informasi, dimana terdapat internet sebagai media teknologi informasi yang digunakan, tentu perkembangan data akan terus mengalami perkembangan yang signifikan dalam suatu kebutuhan informasi didalam perusahaan. Menurut Rachmat Gunawan, Direktur CTI Group di Hotel Ritz Carlton Pacific Place, Jakarta,” "Tren big data di dunia dalam rentan waktu 2012-2020 diprediksi akan mencapai 40 kali lipat. Sekitar 90% data di dunia hanya dibuat dalam kurun waktu 2 tahun terakhir,".
    Namun hingga saat ini belum ditemukannya definisi resmi dari istilah Big Data. Namun dari kemunculan istilahnya dapat menjadi solusi dari masalah yang ditimbulkan kumpulan data yang selalu berkembang, sehingga melampui batas kemampuan media penyimpanan maupun sistem database saat ini. Sementara menurut IBM, dalam di situs resminya mendefinisikan Big Data ke dalam tiga istilah yaitu volume , variety , danvelocity. Volume di sini berkaitan dengan ukuran media penyimpanan data yang sangat besar atau mungkin tak terbatas. Sementara variety berarti tipe atau jenis data yang dapat diakomodasi. Sedangkan velocitydapat diartikan sebagai kecepatan proses. Dengan begitu, Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang menawarkan ruang tak terbatas, serta kemampuan untuk mengakodasi dan memproses berbagai jenis data dengan sangat cepat.
    Oleh karena itu, Big Data akan membantu perubahan perusahaan ke hal yang lebih baik, jika dapat memanfaatkan dan mengakomadiskan setiap data dengan baik didalam perusahaan. Karena informasi tentu memiliki suatu nilai yang besar dalam kebutuhan bisnis suatu perusahaan.
1.2    Ruang Lingkup
    Ruang lingkup yang menjadi batas-batasan dalam pembahasan paper “Big Data Big Performance” yaitu :
1.2.1.    Menggambarkan pengertian, serta memberikan informasi mengenai dari Big Data itu sendiri.
1.2.2.    Manfaat yang bisa diperoleh dari penanggulangan Big Data.
1.2.3.    Bagaimana cara mengimplemntasikan dan pengelolaan dari Big Data.
1.3    Tujuan dan Manfaat
    Berikut ini merupakan penjelasan mengenai tujuan yang bisa diperoleh dalam paper ini, antara lain :
1.    Memberikan informasi yang jelas tentang pentingnya Big Data Big Performance dalam suatu perusahaan atau organisasi.
2.    Untuk mengetahui kegunaan Big Data dalam suatu perusahaan
Manfaat yang diperoleh dari pembahasan paper ini, antara lain :
1.     Memberikan wawasan tentang apakah yang dimaksud dengan Big Data
1.4    Metodologi Penulisan
    Metode penulisan yang digunakan dalam menyusun papaer “Big Data Big Performance” , antara lain sebagai berikut :

1.4.1.    Studi Pustaka
Metode ini adalah melakukan penelitian dengan cara mencari referensi serta data yang digunakan untuk mengumpulkan berbagai informasi yang berhubungan dengan topik penulisan paper ini.
1.4.2.    Studi Jurnal
Dalam metode ini dilakukan penelitian dengan cara mencari informas-informasi yang berkaitan dengan topik penulisan melalui jurnal-jurnal yang ditemukan.

1.5    Sistematika Penulisan
1.5.1.    BAB 1 : PENDAHULUAN
Pada bab ini adalah penjelasan mengai latar belakang, ruang lingkup, tujuan dan manfaat, dan metodologi dalam penulisan paper ini, serta sistematika penulisan yang merupakan gambaran secara garis besar mengai isi dari paper ini.
1.5.2.    BAB 2 : LANDASAN TEORI
Dalam bab ini adalah penjelasan mengani teori dan konsep yang berkaitan dengan paper ini
1.5.3.    BAB 3 : PEMBAHASAN
Dalam bab ini merupakan bab yang memberikan penjelasan serta manfaat yang bisa diperoleh mengenai paper ini yaitu “Big Data Big Performance”. Dan dalam bab ini memberikan informasi-informasi yang berkaitan dengan topik dalam paper ini
1.5.4.    BAB 4 : PENUTUP
Pada bab ini akan memberikan hasil mengenai penelitian dari topik paper ini berupa simpulan, serta memberikan gagasan dari pembahasan dari topik paper ini berupa saran yang bisa digunakan

BAB 2

LANDASAN TEORI

2.1    Pengertian Data

    Data merupakan sekumpulan dari aktivitas yang telah direkam, dikelompokkan, dan disimpan dalam jumlah yang besar akan tetapi belum diolah atau masih mentah, sehingga belum dapat menghasilkan output yang berguna. Berikut ini adalah beberapa definisi data menurut para ahli:

Menurut Inmon (2005, p493), data adalah kumpulan dari fakta, konsep, atau instruksi pada penyimpanan yang digunakan untuk komunikasi, perbaikan dan diproses secara otomatis yang mempresentasikan informasi yang dapat di mengerti oleh manusia.

Menurut Al-Bahra Bin Ladjamudin (2005, p8) Data dapat didefenisikan sebagai deskripsi dari suatu dan kejadian yang kita hadapi.Data dapat berupa catatan-catatan dalam kertas, buku, atau tersimpan sebagai file dalam database. Data akan menjadi bahan dalam suatu proses pengolahan data. Oleh karena itu, suatu data belum dapat berbicara banyak sebelum diolah lebih lanjut.

Menurut Turban (2010, p41), data adalah deskripsi dasar dari benda, peristiwa, aktivitas dan transaksi yang direkam, dikelompokkan, dan disimpan tetapi belum terorganisir untuk menyampaikan arti tertentu.

2.2    Pengertian Database

    Database adalah kumpulan data yang saling berhubungan yang disimpan secara bersamaan sedemikian rupa dan tanpa pengulangan (redudansi) yang tidak perlu, untuk memenuhi berbagai kebutuhan. Adapun definisi khusus dari para ahli adalah sebagai berikut :

Menurut Connolly dan Begg (2010, p65), database adalah kumpulan berbagai data logika terkait dan deskripsi, yang dirancang untuk memenuhi kebutuhan informasi organisasi.

Menurut O’Brien (2011, p173), database adalah kumpulan elemen data yang terintegrasi yang berhubungan secara logikal.

Berdasarkan teori para ahli diatas dapat disimpulkan bahwa, database adalah kumpulan data yang berhubungan secara logikal dan disimpan berdasarkan suatu skema untuk memperoleh informasi yang dibutuhkan oleh organisasi.

2.3    Pengertian Big Data

    Pada era teknologi informasi yang semakin berkembang saat ini, masalah-masalah yang dihadapi oleh setiap perusahaan pun semakin berkembang. Seperti contoh database disuatu perusahaan tidak mampu lagi menampung data yang masuk, sehingga data perusahaan lama pun harus dibuang. Padahal kemungkinan perusahaan membutuhkan data perusahaan lama sangat tinggi. Untuk itu saat ini seharusnya setiap perusahaan mengadopsi teknologi big data untuk meningkatkan kapasitas untuk menampung data agar tidak satu pun data terbuang.

Big data merupakan sekumpulan data yang besar kapasitasnya jauh melebihi kemampuan sebuah database software tools. Akan tetapi Big data masih belum mempunyai definisi yang khusus, namun ada beberapa definisi seperti pada berikut :

Menurut IBM (International Business Machines Corporation) dalam situsnya, data besar yang dihasilkan oleh segala sesuatu di sekitar kita setiap saat. Setiap proses digital dan media sosial pertukaran memproduksinya. Sistem, sensor dan perangkat mobile mengirimkannya. Data besar yang tiba dari berbagai sumber pada kecepatan yang luar biasa. Untuk mengekstrak nilai yang berarti dari data yang besar, Anda membutuhkan kekuatan pemrosesan optimal, kemampuan analisis dan keterampilan.

SAS (Statistical Analysis System), seperti yang dilansir dalam halaman situsnya mengatakan bahwa data besar (big data) adalah istilah yang populer digunakan untuk menggambarkan pertumbuhan eksponensial dan ketersediaan data, baik terstruktur dan tidak terstruktur. Dan data yang besar mungkin sama penting bagi bisnis - dan masyarakat - seperti halnya internet.

2.4 Karakteristik Big Data

SAS menyebutkan bahwa seorang analis industri bernama Doug Laney menyebutkan bahwa karakteristik big data tidak hanya sebatas data yang besar, namun juga menambahkan 3V (volume, velocity and variety). Dalam 3V itu, tertuang bahwa:

1. Volume (kapasitas): Banyak faktor yang berkontribusi terhadap peningkatan volume data. Data berbasis transaksi disimpan selama bertahun-tahun. Data terstruktur mengalir dari media sosial. Peningkatan jumlah sensor dan mesin-ke-mesin data yang dikumpulkan. Di masa lalu, volume data yang berlebihan adalah masalah. Tapi mengurangi biaya penyimpanan, masalah lain muncul, termasuk bagaimana menentukan relevansi dalam volume data yang besar dan bagaimana menggunakan analisis untuk menciptakan nilai dari data yang relevan.

2.      Velocity (kecepatan): Data streaming dengan kecepatan yang luar biasa, belum pernah terjadi sebelumnya dan harus ditangani dengan secara tepat waktu. Tag RFID, sensor dan bahkan barcode yang mendorong kebutuhan untuk menangani data secara real time. Bereaksi cukup cepat untuk menangani kecepatan data yang merupakan tantangan bagi sebagian besar organisasi.

3.      Variety (variasi): Data hari ini datang dalam semua jenis format. Terstruktur, data numerik dalam database tradisional. Informasi yang dibuat dari aplikasi bisnis. Dokumen tidak terstruktur teks, e-mail, video, audio, data lainnya dan transaksi keuangan. Mengelola, penggabungan dan mengatur jenis data yang berbeda adalah sesuatu yang banyak organisasi masih dipusingkan.

4.      Variability (keragaman): Selain kecepatan meningkat dan jenis data, arus data yang dapat sangat tidak konsisten dengan puncak periodik. Apakah sesuatu yang tren di media sosial? Harian, musiman dan event yang dipicu beban puncak data dapat menantang untuk mengelola. Bahkan lebih lagi dengan data terstruktur yang terlibat.

5.      Kompleksitas. Data hari ini berasal dari berbagai sumber. Dan itu masih merupakan usaha untuk menghubungkan, pencocokan, membersihkan dan mengubah data di seluruh sistem.

dalam situs IBM (International Business Machines Corporation) juga, big data menghasilkan beberapa perubahan, yaitu:

1.      Competitive advantage: data yang muncul sebagai sumber daya terbaru di dunia untuk keunggulan kompetitif.

2.      Decision making: Pengambilan keputusan yang bergerak dari beberapa elit untuk diperbanyak.

3.      Value of data: data berkembang cepat namun sistem sekarang belum bisa beradaptasi.

BAB 3

PEMBAHASAN

3.1    Pengertian Big Data
    IBM di situs resminya mendefinisikan Big Data ke dalam tiga istilah yaitu volume , variety , dan velocity. Volume di sini berkaitan dengan ukuran media penyimpanan data yang sangat besar atau mungkin tak terbatas. Sementara variety berarti tipe atau jenis data yang dapat diakomodasi. Sedangkan velocity dapat diartikan sebagai kecepatan proses.

Dengan begitu, Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang menawarkan ruang tak terbatas, serta kemampuan untuk mengakodasi dan memproses berbagai jenis data dengan sangat cepat.

Di sektor bisnis Big Data, Google bisa dikatakan sebagai pelopor. Perusahaan yang berbasis di Mountain View, California itu di tahun 2006 sempat memperkenalkan Google Bigtable. Bigtable merupakan sistem database berskala besar dan cepat yang digunakan Google untuk mengolah berbagai jenis data dari berbagai layanan, termasuk data dari layanan mesin pencari berbasis internet milik mereka.

Setelah Google, jejaring sosial milik Mar Zuckerberg, Facebook, pun menerapkan sistem database sejenis untuk menangani melonjaknya pengguna layanan mereka. Dengan teknologi Big Data, Facebook tak pernah kesulitan untuk menangani peredaran data yang melonjak drastis dalam enam tahun terakhir yang berasal dari 1 miliar pengguna jejaring sosial mereka.

3.2    Manfaat Big Data
    1. Ekspansi berkesinambungan dan unifikasi pada SQL dalam Hadoop.
Sejumlah perusahaan teknologi sedang bekerja keras membangun layer teknologi solusi Big Data non-SQL seperti Hadoop.Besarnya dukungan bahasa SQL cukup bervariasi, tapi developer SQL yang cerdas akan mampu memperoleh manfaat dan kapabilitas ini untuk
memampukan SQL interaktif pada Big Data. Contohnya termasuk Hadapt, Teradata Aster dan EMC Greenplums Pivotal HD
2. Dukungan terpadu bagi data terstruktur, semi terstruktur dan tidak terstruktur telah berkembang terus.
Proyek IDC dengan jumlah data digital yang kebanyakan tidak terstruktur akan tumbuh 40 - 50% per tahun.Tahun 2020, jumlah data total akan mencapai 40 zettabytes. Data yang tidak terstruktur berasal dari email,forum,blog,social networks,sistem POS (Point of Sales) dan mesin penghasil data. Untukmeng-capture dan menganalisa banyak jenis data massal,inovator memperluas solusi Big Data melampaui sekedar pengambilan data saja.Sebagai tambahan, kita akan melihat kemunculan dana dopsi solusiseperti Oracle MDEX engine, Accumulo dan Attivio untuk mengambil jenis data ini dalam satu penyimpanan.
3. Kemajuan dalam pencarian.
Menyaring sejumlah besar data massal bukanlah hal Mudah,ini seperti menemukan jarum dalam jerami. Seiring waktu kita akan melihat solusi Big Data yang lebih banyak memasukkandukungan pencarian kedalam solusi mereka. Industri yang menjadi leading usaha ini adalah LucidWorks, IBM dan Oracle melalui akuisisi Endeca, Autonomy dan MarkLogic.LucidWorks menggabungkan open source stack
dari Lucene/Solr, Hadoop, Mahout dan NLP.
4. Perluasan ETL (extract-transform-load)dan dukungan ELT (extract-load-transform).
Beberapa pendapat mengungkapkan kasus penggunaan Hadoop yang utama adalah melakukan workflow ETL karena sifat batch Hadoop. Bagaimanapunjuga, jika kita melihat bagian penyusunin frastruktur yang dibutuhkan membangun dan mengelola Hadoop yang kompleks berdasarkan solusi ETL,maka kita akan lebih memilih menggunakan solusi ETL dari Informatica,Talend, Syncsort, CloverETL. Bertahun-tahun mereka telah berfokus membangun solusi ETL terbaik dari awal yang saat ini lebih sering disebut solusi integrasi
data.Vendor pemain murni ETL telah bekerja dengan tekun untuk memastikan dukungan solusi Big Data.Dukungan ini tidak hanya ET tapi juga ELT yang manatransformasidieksekusioleh Hadoop di dalam Hadoop.Hal ini memungkinkan pengguna lebih memilih solusi ETL yang sudah ramai digunakan dibandingkan kapabilitas kuat Hadoop. Kedepan, ETL murni ini akan mendukung berbagai solusi Big Data dari penyedia NewSQL dan NoSQL.
3.3    NoSQL Database
    Metode NoSQL yang pertama adalah table-oriented. Metode ini biasanya hanya dikembangkan oleh yang membuatnya sendiri seperti Google dan Facebook dengan Big Table dan Cassandranya. Performa dan hasil dari metode ini tidak perlu kita ragukan lagi karena kita telah tiap hari menggunakan kedua website ini dan meskipun dengan berjuta – juta data yang ada di database mereka tapi kita tetap bisa memaksimalkan website mereka.
Metode NoSQL yang kedua adalah Document-oriented database. Jenis NoSQL ini merupakan database yang berbasiskan dokumen. Tidak ada tabel, field dan record, yang ada hanyalah koleksi dan dokumen. Koleksi dapat disamakan dengan tabel dan dokumen disamakan dengan field. Berbeda dengan database relasional, pada document oriented database, dokumen dapat memiliki field yang berbeda dengan dokumen lain walaupun berada dalam satu koleksi. Hal ini tidak dapat dilakukan dengan database relasional dimana sebuah record tidak mungkin memiliki field yang berbeda dengan record yang berada dalam satu tabel. Document Oriented digunakan oleh Mongodb, Couchdb, Ravendb, dan lain-lain.
Metode NoSQL selanjutnya adalah graph-oriented, yaitu jenis database NoSQL yang menggunakan struktur graph dengan node, edge dan properties untuk menyimpan datanya. Metode ini digunakan oleh Infinite Graph, InfoGrid, Neo4J dan lain-lain.
Yang terakhir adalah key-value store. Hampir sama seperti document-oriented database, yang berbeda adalah media penyimpanannya. Dalam key-value store, data tidak langsung disimpan dalam disk seperti database pada umumnya. Data disimpan dalam memori komputer dan sesekali data dalam memori ditulis ke disk.

3.4    Extract Transform Load (ETL)
    Extract, transform, dan load (ETL) adalah proses yang terjadi di dalam penggunaan database dan terutama pada data warehouse yang bersangkutan dengan:
•    Mengekstrak data
•    Melakukan transformasi data menjadi sesuai dengan kebutuhan operasional.
•    Memasukan hasil tersebut pada target.

Gambar 3.1 Extract Transform Load (ETL)

3.4.1     Extract
    Proses ekstrak merupakan tahap pertama dari proses ETL, proses ini melibatkan penggalian data dari sumber. Sebagian besar bagian dari data warehouse mengkonsolidasikan data dari sumber sistem yang berbeda-beda. Pada setiap sistem data yang terpisah juga dapat menggunakan organisasi data yang berbeda. Umumnya format dari sumber data adalah database relasional dan flat file, akan tetapi dapat mencakup sebuah struktur database non-relasional seperti Information Management System (IMS) atau sebuah struktur data lain Virtual Storage Access Method (VSAM) atau Indexed Sequential Access Method (ISAM), atau dapat juga mengambil dari sumber-sumber data luar seperti melalui spidering web atau screen-scraping. Streaming dari beberapa sumber data yang diekstrak dan beban on-the-flu ke tujuan database yang diinginkan merupakan cara lain untuk melakukan proses ETL, apabila tidak ada penyimpangan data menengah yang diperlukan. Pada dasarnya, tujuan dari tahap proses ekstraksi adalah untuk melakukan konversi data ke dalam format tunggal yang sesuai untuk pengolahan transformasi. Adalah bagian yang tidak terpisahkan dari proses ekstraksi melibatkan parsing data yang telah diekstrak, sehingga jika data memenuhi pola yang diharapkan atau struktur yang sudah menjadi target dari yang direncanakan. Apabila tidak, data yang dimiliki dapat ditolak secara seluruhnya atau hanya sebagian yang diperlukan.
3.4.2    Transform
    Proses tahap transformasi menerapkan beberapa serangkaian aturan atau fungsi untuk data yang diambil dari sumber data untuk memperoleh data agar dilakukan proses loading ke target akhir. Beberapa bagian dari sumber data akan membutuhkan manipulasi yang sangat sedikit ataupun bahkan tidak sama sekali ada data. Dalam kasus lain, satu atau lebih jenis transformasi berikut memungkinkan diperlukan untuk memenuhi kebutuhan bisnis dan teknis dari database yang dituju:
•    Hanya memilih beberapa kolom tertentu untuk memuat (atau tidak memilih kolom/ kolom nol). Sebagai contoh, apabila sumber data memiliki tiga kolom (dapat disebut juga sebagai atribut) mengatakan roll_no, usia dan honor maka ekstraksi dapat mengambil hanya roll_no dan honor. Demikian juga dengan mekanisme ekstraksi dapat mengabaikan semua catatan dimana honor yang tidak hadir(honor==null).
•    Dapat menerjemahkan nilai-nilai kode (misalnya, juga sistem pada sumber menyimpan P untuk pria dan W untuk wanita, tetapi pada gudang toko R untuk pria dan G untuk wanita), hal ini merupakan panggilan untuk membersihkan data secara otomatis, tidak ada hal pembersihan pengguna terjadi selama proses ETL.
•    Encoding pada nilai dalam bentuk yang bebas (misalnya, pemetaan “pria” untuk “P” dan “Mr” menjadi “M”).
•    Menurunkan beberapa nilai yang dihiting baru (contoh, sale=qty*unitPrice).
•    Sorting
•    Proses penyatuan data dari beberapa sumber.
•    Agregasi
•    Dapat membangkitkan nilai kunci pengganti
•    Transposing
•    Memisahkan kolom kedalam beberapa kolom
•    Disagregasi, mengulangi kolom kedalam tabel detil yang terpisah
•    Lookup dan melakukan validasi data yang relevan dari tabel maupun file referensial untuk secara perlahan mengubah dimensi
•    Melakukan penerapan segala bentuk validasi data sederhana maupun kompleks. Jika validasi terjadi kegagalan, hal itu dapat mengakibatkan sebuah penolakan penuh, sebagian atau tidak samakelai dari data, dan dengan demikian tidak ada, beberapa atau seluruh data diserahkan ke langkah selanjutnya, tergantung dari aturan desain dan cara penanganan eksepsi.

3.4.3    Load
    Merupakan tahap terakhir dari proses ETL yaitu melakukan proses load data ke target akhir, yang dimana biasanya target akhirnya adalah data warehouse (DW). Hal ini tergantung kepada kebutuhan pada sebuah organisasi atau perusahaan, proses ini bersifat sangat bervariasi. Beberapa data warehouse dapat menggantikan informasi yang ada dengan informasi yang bersifat kumulatif, data ekstrak sering memperbaharui dengan melakukannnya secara harian, mingguan, maupun bulanan. Data warehouse lainnya (atau bahkan dapat merupakan bagian lain dari data warehouse yang sama) memiliki kemampuan untuk menambahkan data yang baru dalam bentuk historicized, sebagai contoh, per jam. Untuk mengerti hal ini, mempertimbangkan data warehouse yang diperlukan untuk mempertahankan pada rekor penjualan satu tahun terakhir. Pada tahap berikutnya, data warehouse akan menghapus semua data yang berumur lebih tua dari satu tahun dengan data yang lebih baru. Akan tetapi, masuknya data pada setiap jangka waktu satu tahun akan dilakukan dengan cara historicized. Waktu dan ruang lingkup untuk penggantian atau penambahan adalah pilihan dari strategi desain tergantung pada waktu yang tersedia dan kebutuhan bisnis yang diperlukan. Sistem yang lebih kompleks memiliki kemampuan untuk mempertahankan jejak sejarah dan audit dari semua perubahan data yang dimuat di data warehouse.
    Dikarenakan tahap dari proses load maka tahap ini akan berinteraksi langsung dengan database, segala kendala yang didefinisikan dalam skema database serta memicu untuk mengaktifkan pada proses load data akan berlaku (contohnya, keunikan dari segi integritas, referensial, dan bidang yang wajib), yang juga berkontribusi kepada kinerja kualitas keseluruhan data dari proses ETL
    Sebagai contoh, pada sebuah lembaga keuangan memungkinkan memiliki informasi mengenai pelanggan di beberapa departemen dan pada departemen masing-masing memungkinkan memiliki informasi bahwa pelanggan yang terdaftar dengan cara-cara yang berbeda. Pada departemen keanggotaan pelanggan mungkin pada daftar pelanggan menggunakan nama, sedangkan pada departemen akuntansi mungkin daftar pelanggan menggunakan nomor. ETL dapat melakukan proses pengelompokan semua data yang dimiliki dan melakukan proses konsolodasian ke dalam presentai yang seragam, seperti untuk menyimpan dalam database atau kedalam data warehouse.
    Cara lain yang mungkin digunakan ETL adalah untuk memindahkan informasi yang dimiliki kedalam aplikasi lain secara permanen. Sebagai contoh, kata pengolahan data dapat diterjemahkan kedalam angka dan huruf, yang dimana bersifat lebih mudah untuk melacak dalam spreadsheet atau program database. Hal ini dilihat sangat berguna dalam proses back up informasi sebagai transisi perusahaan apabila perusahaan tersebut akan memasang sebuah software yang baru dan beda dengan yang sebelumnya.
3.5    Karakteristik Big Data
    Sebuah informasi atau data dapat didefinisikan sebagai BIG DATA jika memiliki satu atau lebih dari tiga karakteristik berikut :
•    Volume - Seberapa besar data yang bisa anda olah saat ini? Apakah dengan jumlah data yang anda miliki anda sudah lebih baik dibanding kompetitor? Data yang ada saat ini berukuran sangat besar. Di tahun 2000 saja tercatat 800,000 petabyte data tersimpan di seluruh dunia dan angka ini diperkirakan akan mencapai 35 zettabyte di tahun 2020 atau bahkan lebih. Bayangkan jika anda membutuhkan analisis terhadap 1 persen saja dari seluruh data untuk mendapatkan keuntungan dibandingkan kompetitor anda, apakah teknologi yang anda miliki sekarang mampu melakukannya?
•    Variety - Selain data relasional, data apa saja yang umum dianalisis? Dengan meledaknya jumlah sensor, dan perangkat pintar , dan juga teknologi social networking yang menghasilkan data-data yang akan sulit jika harus disimpan di dalam relasional database. Kita tidak akan pernah tahu jika kita tidak menyimpan semua data yang tidak terstruktur ini seperti halaman web, web log, search index, forum social media, email, dokumen, data sensor, dll. Data-data seperti inilah yang mungkin akan memberikan keuntungan jika kita mampu mengolahnya.
•    Velocity - Seberapa cepat kita dapat memproses data yang ada? Mungkin hal itu yang pertama ada dalam benak anda ketika anda membaca ini. Namun sebenarnya velocity di sini kita lihat dari persepsi seberapa cepat kita mampu mendapatkan hasil analisis terhadap aliran data yang terus mengalir di saat yang hampir bersamaan dengan datangnya data tersebut. Bayangkan jika kita memiliki sistem yang mampu mendeteksi buronan yang tertangkap kamera cctv, ataumendeteksi dini titik kritis seorang bayi dari suhu tubuh, tekanan darah, denyut jantung, kecepatan bernafas bayi tersebut, melakukan sensor terhadap kata kasar atau kata yang tidak seharusnya diucapkan yang diucapkan pada siaran langsung di tv atau pada percakapan telepon customer service sebuah perusahaan.

Gambar 3.2 Big Data Characteristics

3.6 Infrastruktur Big Data
Dalam infrastruktur teknologi Big Data sendiri memiliki karakteristik yang berbeda dengan traditional data, yaitu :

                                Gambar 3.3 Perbedaan Tradisional Data dengan Big Data
Pada awalnya tahun 1970-2000 data yang dibangun meruapakan data dengan model terstruktur dan merupakan relational database seperti MySQL, oracle, dan lain-lain. Lalu pada tahun 1995 berikutnya mulai dibangun suatu business intelligence yang menggunakan structured dan relational database dengan system seperti cognos, pentaho dan lain-lain. Pada 2010 hingga sekarang dibangun suatu system yang memiliki tujuan 3V (volume, velocity, varity) atau 4V (ditambah value), dan dengan bermacam teknologinya seperti map reduce, high performance computers cluster dan lain-lain.
Artinya Big Data merupakan bagian dari intelijen bisnis, Big Data dapat digunakan untuk membentuk suatu bisnis yang memiliki intelijen guna mendukung pengambilan keputusan. Namun dalam hal ini ada beberapa hal yang berbeda dari segi volume yang bukan hanya jumlah data yang banyak, namun pertumbuhan data yang sangat pesat sehingga dalam rentang waktu yang pendek data dapat bertumbuh dengan sangat cepat dan besar (velocity), dan data yang ada memiliki variasi yang sangat banyak (variety) tentunya dalam big data sendiri terutama dalam pembentukan datawarehouse sudah banyak dilakukan ekstraksi transform load untuk menanggulanggi varietas dari data tersebut sehingga data dapat menjadi standar baik dibersihkan dari berbagai noise juga dilakukan transformasi sehingga data jauh lebih sesuai dengan proses bisnis yang ada atau yang sedang berjalan bagi organisasi tertentu.
Intelijen bisnis yang didalamnya terdapat pemanfaatan big data pun membutuhkan suatu teknologi yang dapat mendukung proses bisnis yang ada didalam intelijen bisnis itu sendiri, sehingga dapat berjalan sesuai dengan yang diharapkan. Sehingga perlu dibangun suatu infrastruktur yang tepat dan dapat mengatasi kebutuhan big data yaitu salah satunya adalah proses pengolahan data yang sangat cepat walaupun diwaktu yang sama data berukuran besar dan tumbuh dengan cepat.
Yang menjadi masalah dan tantangan adalah akusisi data, recording data, ekstraksi, cleaning, anotasi, integrasi, agregasi, representasi, analisis, modeling, interpretasi, dan visualisasi. Big data sendiri memiliki penerapan dan manfaat untuk berbagai bidang seperti yang sudah disebutkan diatas sebelumnya.
Ada dua teknologi dalam infrastruktur dalam Big data yaitu :
1.    High Performance Computing Cluster (HPCC) atau dapat disebut sebagai Data Analytics Supercomputer (DAS)
2.    Hadoop Platform (Map Reduced-Based Platform)
Dari kedua pendekatan teknologi tersebut terdapat perbedaan yang cukup signifikan (dari segi fungsi) dan juga terdapat kemiripan dalam proses yang berjalan didalamnya. Kemiripan dari dua teknologi tersebut adalah sama-sama memanfaatkan lebih dari satu komputer dalam melakukan proses penarikan informasi ataupun pemrosesan berbagai informasi atau bahkan dapat terlihat keduanya menggunakan konsep kluster pada arsitektur teknologi yang digunakan. Pada dasarnya keduanya pun dapat diintegrasikan dengan baik guna saling mendukung satu sama lain.
High Performance Compputing Clusters ini sendiri pada dasarnya membangun suatu super komputer yang terdiri dari lebih dari satu komputer dengan spesifikasi tertentu (biasanya sama) untuk saling membantu menopang, atau membagi tugas satu sama lain sehingga bersama-sama dapat melakukan processing terhadap suatu data, terutama dalam hal pencarian data. Proses besar yang biasanya berjalan sendiri adalah seperti, Ekstrak, Transform, dan Load, lalu setelah itu dilakukan analisis untuk mendapatkan informasi yang lebih sesuai dengan kebuthan bisnis organisasi tersebut.

                                  Gambar 3.4 High Performance Computing Cluster (HPCC)
Sedangkan Hadoop Platform sendiri merupakan suatu project teknologi yang dikembangkan oleh apache dalam mengelola data besar sehingga jauh lebih efektif dan efisien. Dalam hadoop sendiri terdiri dari berbagai komponen, bahkan hingga hadoop sendiri memiliki distributed file system sendiri yang disebut dengan (HDFS). Kelebihan dari dari HDFS ini sendiri adalah :
•    Fault tolerance, dan di-deploy untuk low cost hardware
•    Write Onece, Read many, merupakan koherensi sederhana, dan terlebih lagi framework yang dibangun dalam hadoop ketika kita akan menggunakan hadoop, menggunakan teknologi java.
•    Memindahkan komputasi/proses lebih cepat dari memindahkan data.
•    Mirip Google File System, tetapi HDFS membagi file menjadi block dalam cluster node yang terdistribusi.
•    Core component : master vs slave, name node vs data node, job tracker vs task tracker.

                                                    Gambar 3.5 Hadoop Platform

3.6    Data Mining
    Data mining adalah suatu proses analisis untuk menggali informasi yang tersembunyi
dengan menggunakan statistik dan artificial intelligence di dalam suatu database dengan ukuran sangat besar, sehingga ditemukan suatu pola dari data yang sebelumnya tidak diketahui, dan pola tersebut direpresentasikan dengan grafik komputer agar mudah dimengerti.
Dalam proses mining (datamining) dengan adanya big data ini sendiri cukup menguntungkan karena datamining membutuhkan data yang banyak sehingga menghasilkan model yang jauh lebih general namun memiliki akurasi yang tinggi. Namun dengan adanya big data ini sendiri. Datamining diharuskan menerima tantangan bagaimana melakukan datamining dengan skala yang sangat besar dan terdistribusi juga dengan variety data yang sangat variatif.

BAB 4

PENUTUP

    4.1    Simpulan

    Dari pembahasan mengenai bigdata, dapat disimpulkan bahwa Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang menawarkan ruang tak terbatas, serta kemampuan untuk mengalokasi dan memproses berbagai jenis data dengan sangat cepat. Di samping itu big data juga memiliki jenis-jenisnya seperi ada traditional data dan big data. Big data juga memiliki karakerisik untuk bisa disebut big data karakerisik tersebut adalah volume, variety, dan velocity.Adapun teknologi infrasrukur dalam big data yang dapat membanu perusahaan-perusahaan besar pada umumnya untuk mengaasi masalah dalam big daa.

4.2    Saran

    Berdasarkan pembahasan sebelumnya terdapat beberapa saran untuk perusahaan maupun organisasi dalam mengelola,menggunakan, dan menerapkan big data, yaitu :

     -Big data sangat disarankan untuk ada dalam perusahaan maupun organisasi yang memiliki sumber daya yang besar karena dengan adanya big data akan memberikan manfaat pada organisasi tersebut seperti ekspansi berkesinambungan dan unifikasi pada SQL dalam hadoop, dukungan terpadu bagi data terstruktur, semi struktur, dan tidak terstruktur dapat bekembang secara berkelanjutan, kemajuan dalam pencarian, dan perluasan ETL (extract transfrom load) dan dukungan ELT ( extract load transfrom)
-untuk menghadapi masalah seperti akuisisi data, recording data, ekstraksi, dan visualisasi dibutuhkan teknologi infrastruktur dalam big data. Ada dua teknologi dalam infrastruktur dalam Big data yaitu High Performance Computing Cluster (HPCC) atau dapat disebut sebagai Data Analytics Supercomputer (DAS) dan Hadoop Platform (Map Reduced-Based Platform)
-Diperlukan data mining dalam big data dengan data mining maka akan menghasilkan model yang jauh lebih general namun memiliki akurasi yang tinggi dan juga dapat menangani masalah variaety data. Datamining diharuskan menerima tantangan bagaimana melakukan datamining dengan skala yang sangat besar dan terdistribusi juga dengan variety data yang sangat variatif.

DAFTAR PUSTAKA

Al-Bahra bin Ladjamudin. 2005. Analisis dan Desain Sistem Informasi. Yogyakarta :
Graha Ilmu.
Turban, Efraim., Linda Volonino. (2010). Information Technology for management, 7th Edition. John Wiley & Sons, Asia.

O’Brien, James A. dan Marakas, George M. 2011. “Management Information Systems, 10th Edition”. McGraw-Hill/ Irwin, New York

Connolly, Thomas and Begg, Carolyn. (2010). Database Systems: A Practical Approach to
Design, Implementation, and Management, Fifth Edition. Pearson Education, Boston.
Inmon, William H.,(2005). Building The Data Warehouse. (4th Edition). Indiana: Wiley Publishing.

Topik - Topik Lanjutan

Senin, 24 Maret 2014