Tuesday 11 June 2013

Pada artikel kali ini penulis akan menyajikan pengetahuan umum tentang data mining. Umumnya, data mining dapat disebut data atau penemuan pengetahuan yang artinya proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna, informasi yang dapat digunakan untuk meningkatkan pendapatan, biaya pemotongan, atau keduanya. Software Data mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis data. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai dimensi atau sudut, mengkategorikan, dan meringkas hubungan diidentifikasi. Secara teknis, data mining adalah proses menemukan korelasi atau pola antara puluhan field dalam database relasional besar. Meskipun data mining adalah istilah yang relatif baru, teknologi ini tidak. Perusahaan telah menggunakan komputer kuat untuk menyaring volume data scanner supermarket dan menganalisa laporan riset pasar selama bertahun-tahun. Namun, inovasi terus menerus dalam kekuatan pemrosesan komputer, penyimpanan disk, dan perangkat lunak statistik secara dramatis meningkatkan akurasi analisis saat mengemudi menurunkan biaya.
Sebagai contoh, salah satu jaringan toko Midwest menggunakan kapasitas data mining perangkat lunak Oracle untuk menganalisis pola pembelian lokal. Mereka menemukan bahwa ketika orang membeli popok pada hari Kamis dan Sabtu, mereka juga cenderung untuk membeli bir. Analisis lebih lanjut menunjukkan bahwa pembeli ini biasanya melakukan belanja mingguan mereka pada hari Sabtu. Pada hari Kamis, namun, mereka hanya membeli beberapa item. Pengecer menyimpulkan bahwa mereka membeli bir untuk memilikinya tersedia untuk akhir pekan mendatang. Rantai kelontong bisa menggunakan ini baru ditemukan informasi dalam berbagai cara untuk meningkatkan pendapatan. Misalnya, mereka bisa memindahkan layar bir lebih dekat ke layar popok. Dan, mereka bisa memastikan bir dan popok yang dijual dengan harga penuh pada hari Kamis.
Data, Informasi, Pengetahuan, dan Gudang Data
Data
Data setiap fakta, angka, atau teks yang dapat diproses oleh komputer. Hari ini, organisasi yang mengumpulkan sejumlah besar dan berkembang dari data dalam format yang berbeda dan database yang berbeda. Ini termasuk:
1. Data operasional atau transaksional yaitu seperti, penjualan, biaya, persediaan, penggajian, dan akuntansi.
2. Data nonoperational, seperti penjualan industri, data perkiraan, dan data ekonomi makro.
3. Meta data, data tentang data itu sendiri, seperti desain database logis atau definisi kamus data.
Informasi
Pola, asosiasi, atau hubungan antar semua data ini dapat memberikan informasi. Sebagai contoh, analisis titik ritel data transaksi penjualan dapat menghasilkan informasi mengenai produk yang dijual dan kapan.
Pengetahuan
Informasi dapat diubah menjadi pengetahuan tentang pola-pola historis dan tren masa depan. Misalnya, ringkasan informasi penjualan supermarket ritel dapat dianalisis dalam terang upaya promosi untuk memberikan pengetahuan tentang perilaku pembelian konsumen. Dengan demikian, produsen atau pengecer dapat menentukan item mana yang paling rentan terhadap upaya promosi.
Gudang Data
Kemajuan dramatis dalam data capture, kekuatan pemrosesan, transmisi data, dan kemampuan penyimpanan yang memungkinkan organisasi untuk mengintegrasikan berbagai database mereka ke dalam gudang data. Data pergudangan didefinisikan sebagai proses manajemen data terpusat dan pengambilan. Data pergudangan, seperti data mining, adalah istilah yang relatif baru meskipun konsep itu sendiri telah ada selama bertahun-tahun. Data pergudangan merupakan visi ideal mempertahankan repositori pusat dari semua data organisasi. Sentralisasi data yang diperlukan untuk memaksimalkan akses pengguna dan analisis. Kemajuan teknologi dramatis membuat visi ini menjadi kenyataan bagi banyak perusahaan. Dan, kemajuan sama dramatis dalam perangkat lunak analisis data yang memungkinkan pengguna untuk mengakses data ini secara bebas. Perangkat lunak analisis data yang mendukung data mining.
Apa yang bisa dilakukan data mining?
Data mining terutama digunakan hari ini oleh perusahaan dengan fokus konsumen yang kuat - ritel, keuangan, komunikasi, dan pemasaran organisasi. Hal ini memungkinkan perusahaan-perusahaan untuk menentukan hubungan antara faktor-faktor "internal" seperti harga, positioning produk, atau staf keterampilan, dan faktor "eksternal" seperti indikator ekonomi, persaingan, dan demografi pelanggan. Dan, hal itu memungkinkan mereka untuk menentukan dampak pada penjualan, kepuasan pelanggan, dan keuntungan perusahaan. Akhirnya, memungkinkan mereka untuk "drill down" menjadi informasi ringkasan untuk melihat data transaksional detail.
Dengan data mining, pengecer bisa menggunakan catatan point-of-penjualan pembelian pelanggan untuk mengirim promosi ditargetkan berdasarkan sejarah pembelian individu. Dengan pertambangan data demografis dari komentar atau jaminan kartu, pengecer bisa mengembangkan produk dan promosi untuk menarik segmen pelanggan tertentu. Sebagai contoh, tambang Hiburan Blockbuster penyewaan video sejarah database-nya untuk merekomendasikan sewa kepada pelanggan individu. American Express dapat menyarankan produk kepada pemegang kartu berdasarkan analisis pengeluaran bulanan mereka.
WalMart adalah perintis data mining besar untuk mengubah hubungan pemasok nya. WalMart menangkap transaksi point-of-sale dari lebih dari 2.900 toko di 6 negara dan terus menerus mengirimkan data ini menjadi 7,5 terabyte Teradata gudang besar-besaran data. WalMart memungkinkan lebih dari 3.500 pemasok, untuk mengakses data pada produk mereka dan melakukan analisis data. Pemasok ini menggunakan data ini untuk mengidentifikasi pola pembelian pelanggan pada tingkat tampilan toko. Mereka menggunakan informasi ini untuk mengelola persediaan toko lokal dan mengidentifikasi peluang merchandise baru. Pada tahun 1995, komputer WalMart diproses lebih dari 1 juta query data yang kompleks.
National Basketball Association (NBA) sedang mengeksplorasi aplikasi data mining yang dapat digunakan bersama dengan rekaman gambar permainan basket. Perangkat lunak Pramuka Lanjutan menganalisis gerakan pemain untuk membantu pelatih mengorganisir drama dan strategi. Misalnya, analisis play-by-play lembar pertandingan dimainkan antara New York Knicks dan Cleveland Cavaliers pada 6 Januari 1995 mengungkapkan bahwa ketika Mark Price memainkan posisi Guard, John Williams mencoba empat tembakan melompat dan membuat masing-masing satu! Pramuka canggih tidak hanya menemukan pola ini, tetapi menjelaskan bahwa itu adalah menarik karena berbeda jauh dari rata-rata persentase menembak 49.30% untuk Cavaliers selama pertandingan itu. Dengan menggunakan jam yang universal NBA, pelatih secara otomatis dapat membuka klip video yang menunjukkan setiap tembakan melompat dicoba oleh Williams dengan Harga di lantai, tanpa perlu menyisir jam rekaman video. Mereka menunjukkan klip sangat sukses bermain pick-and-roll di mana harga menarik pertahanan Pernak dan kemudian menemukan Williams untuk tembakan melompat terbuka.
Bagaimana Data pekerjaan penambangan?
Sementara teknologi informasi berskala besar telah berkembang transaksi terpisah dan sistem analitis, data mining menyediakan link antara keduanya. Software Data mining menganalisis hubungan dan pola dalam data transaksi disimpan berdasarkan permintaan pengguna terbuka. Beberapa jenis perangkat lunak analitis yang tersedia: statistik, pembelajaran mesin, dan jaringan saraf. Umumnya, salah satu dari empat jenis hubungan yang dicari:
Classes: Data yang tersimpan digunakan untuk mencari data dalam kelompok yang telah ditentukan. Sebagai contoh, sebuah rantai restoran bisa menambang Data pembelian pelanggan untuk menentukan kapan pelanggan mengunjungi dan apa yang mereka biasanya memesan. Informasi ini dapat digunakan untuk meningkatkan lalu lintas dengan memiliki spesial sehari-hari.
Cluster: Data item dikelompokkan menurut hubungan logis atau preferensi konsumen. Sebagai contoh, data dapat ditambang untuk mengidentifikasi segmen pasar atau afinitas konsumen.
Asosiasi: Data dapat ditambang untuk mengidentifikasi asosiasi. Bir-popok contoh adalah contoh pertambangan asosiatif.
Pola sekuensial: Data ditambang untuk mengantisipasi pola perilaku dan tren. Sebagai contoh, pengecer peralatan outdoor dapat memprediksi kemungkinan ransel yang dibeli berdasarkan pembelian konsumen tidur tas dan sepatu hiking.
Data mining terdiri dari lima elemen utama:
Ekstrak, transformasi, dan data transaksi beban ke sistem data warehouse.
Menyimpan dan mengelola data dalam sistem database multidimensi.
Menyediakan akses ke analis bisnis dan profesional teknologi informasi data.
Menganalisis data dengan perangkat lunak aplikasi.
Menyajikan data dalam format yang berguna, seperti grafik atau tabel.
Berbagai tingkat analisis yang tersedia:
Jaringan syaraf tiruan: model prediksi Non-linear yang belajar melalui pelatihan dan menyerupai jaringan syaraf biologis dalam struktur.
Algoritma genetik: Optimasi teknik yang menggunakan proses seperti kombinasi genetik, mutasi, dan seleksi alam dalam desain berdasarkan konsep evolusi alam.
Pohon keputusan: struktur pohon berbentuk yang mewakili set keputusan. Keputusan ini menghasilkan aturan untuk klasifikasi dataset. Metode pohon keputusan spesifik termasuk Klasifikasi dan Pohon Regresi (CART) dan Chi Square, Automatic Interaction Detection (CHAID). CART dan CHAID teknik pohon keputusan digunakan untuk klasifikasi dataset. Mereka menyediakan seperangkat aturan yang dapat Anda terapkan untuk yang baru (unclassified) dataset untuk memprediksi catatan akan memiliki hasil yang diberikan. Segmen CART dataset dengan menciptakan 2-way split sementara segmen CHAID menggunakan tes chi square untuk menciptakan multi-arah perpecahan. Kereta biasanya membutuhkan persiapan data kurang dari CHAID.
Metode tetangga terdekat: Sebuah teknik yang mengklasifikasikan setiap record dalam dataset berdasarkan pada kombinasi kelas dari catatan k (s) yang paling mirip dengan itu dalam dataset sejarah (di mana k 1). Kadang-kadang disebut teknik tetangga k-terdekat.
Aturan induksi: Ekstraksi berguna jika-maka aturan dari data berdasarkan signifikansi statistik.
Data visualisasi: Interpretasi visual hubungan yang kompleks dalam data multidimensi. Alat grafis yang digunakan untuk menggambarkan hubungan data.
infrastruktur teknologi Apa yang dibutuhkan?
Saat ini, aplikasi data mining yang tersedia pada semua sistem ukuran untuk mainframe, client / server, dan platform PC. Sistem harga berkisar dari beberapa ribu dolar untuk aplikasi terkecil hingga $ 1 juta per terabyte untuk terbesar. Aplikasi enterprise-wide umumnya berkisar dalam ukuran dari 10 gigabyte untuk lebih dari 11 terabyte. NCR memiliki kapasitas untuk memberikan aplikasi melebihi 100 terabyte. Ada dua driver teknologi penting:
Ukuran database: semakin banyak data yang sedang diproses dan dipelihara, semakin kuat sistem yang diperlukan.
Permintaan kompleksitas: semakin kompleks pertanyaan dan semakin besar jumlah permintaan sedang diproses, semakin kuat sistem yang diperlukan.
Penyimpanan database relasional dan teknologi manajemen memadai untuk banyak aplikasi data mining kurang dari 50 gigabyte. Namun, infrastruktur ini perlu ditingkatkan secara signifikan untuk mendukung aplikasi yang lebih besar. Beberapa vendor telah menambahkan kemampuan pengindeksan luas untuk meningkatkan kinerja query. Lainnya menggunakan arsitektur hardware baru seperti Prosesor Massively Paralel (MPP) untuk mencapai perbaikan order-of-besarnya dalam waktu query. Sebagai contoh, sistem MPP dari ratusan tautan NCR prosesor Pentium berkecepatan tinggi untuk mencapai tingkat kinerja yang lebih besar dari super komputer terbesar.

Categories:

3 comments:

  1. Kita juga punya nih artikel mengenai Data Flow Diagram, silahkan dikunjungi dan dibaca, berikut http://repository.gunadarma.ac.id/bitstream/123456789/1359/1/50407997.pdf
    Terimakasih

    ReplyDelete
  2. This comment has been removed by the author.

    ReplyDelete