Pada artikel kali ini penulis akan menyajikan pengetahuan
umum tentang data mining. Umumnya, data mining dapat disebut data atau penemuan
pengetahuan yang artinya proses menganalisis data dari perspektif yang berbeda
dan meringkas menjadi informasi yang berguna, informasi yang dapat digunakan
untuk meningkatkan pendapatan, biaya pemotongan, atau keduanya. Software Data
mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis
data. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai
dimensi atau sudut, mengkategorikan, dan meringkas hubungan diidentifikasi.
Secara teknis, data mining adalah proses menemukan korelasi atau pola antara
puluhan field dalam database relasional besar. Meskipun data mining adalah
istilah yang relatif baru, teknologi ini tidak. Perusahaan telah menggunakan
komputer kuat untuk menyaring volume data scanner supermarket dan menganalisa
laporan riset pasar selama bertahun-tahun. Namun, inovasi terus menerus dalam
kekuatan pemrosesan komputer, penyimpanan disk, dan perangkat lunak statistik
secara dramatis meningkatkan akurasi analisis saat mengemudi menurunkan biaya.
Sebagai contoh, salah satu jaringan toko Midwest
menggunakan kapasitas data mining perangkat lunak Oracle untuk menganalisis
pola pembelian lokal. Mereka menemukan bahwa ketika orang membeli popok pada
hari Kamis dan Sabtu, mereka juga cenderung untuk membeli bir. Analisis lebih
lanjut menunjukkan bahwa pembeli ini biasanya melakukan belanja mingguan mereka
pada hari Sabtu. Pada hari Kamis, namun, mereka hanya membeli beberapa item.
Pengecer menyimpulkan bahwa mereka membeli bir untuk memilikinya tersedia untuk
akhir pekan mendatang. Rantai kelontong bisa menggunakan ini baru ditemukan
informasi dalam berbagai cara untuk meningkatkan pendapatan. Misalnya, mereka
bisa memindahkan layar bir lebih dekat ke layar popok. Dan, mereka bisa
memastikan bir dan popok yang dijual dengan harga penuh pada hari Kamis.
Data, Informasi, Pengetahuan, dan Gudang Data
Data
Data setiap fakta, angka, atau teks yang dapat diproses
oleh komputer. Hari ini, organisasi yang mengumpulkan sejumlah besar dan
berkembang dari data dalam format yang berbeda dan database yang berbeda. Ini
termasuk:
1. Data operasional atau transaksional yaitu seperti,
penjualan, biaya, persediaan, penggajian, dan akuntansi.
2. Data nonoperational, seperti penjualan industri, data
perkiraan, dan data ekonomi makro.
3. Meta data, data tentang data itu sendiri, seperti
desain database logis atau definisi kamus data.
Informasi
Pola, asosiasi, atau hubungan antar semua data ini dapat
memberikan informasi. Sebagai contoh, analisis titik ritel data transaksi
penjualan dapat menghasilkan informasi mengenai produk yang dijual dan kapan.
Pengetahuan
Informasi dapat diubah menjadi pengetahuan tentang
pola-pola historis dan tren masa depan. Misalnya, ringkasan informasi penjualan
supermarket ritel dapat dianalisis dalam terang upaya promosi untuk memberikan
pengetahuan tentang perilaku pembelian konsumen. Dengan demikian, produsen atau
pengecer dapat menentukan item mana yang paling rentan terhadap upaya promosi.
Gudang Data
Kemajuan dramatis dalam data capture, kekuatan
pemrosesan, transmisi data, dan kemampuan penyimpanan yang memungkinkan
organisasi untuk mengintegrasikan berbagai database mereka ke dalam gudang
data. Data pergudangan didefinisikan sebagai proses manajemen data terpusat dan
pengambilan. Data pergudangan, seperti data mining, adalah istilah yang relatif
baru meskipun konsep itu sendiri telah ada selama bertahun-tahun. Data
pergudangan merupakan visi ideal mempertahankan repositori pusat dari semua
data organisasi. Sentralisasi data yang diperlukan untuk memaksimalkan akses
pengguna dan analisis. Kemajuan teknologi dramatis membuat visi ini menjadi
kenyataan bagi banyak perusahaan. Dan, kemajuan sama dramatis dalam perangkat
lunak analisis data yang memungkinkan pengguna untuk mengakses data ini secara
bebas. Perangkat lunak analisis data yang mendukung data mining.
Apa yang bisa dilakukan data mining?
Data mining terutama digunakan hari ini oleh perusahaan
dengan fokus konsumen yang kuat - ritel, keuangan, komunikasi, dan pemasaran
organisasi. Hal ini memungkinkan perusahaan-perusahaan untuk menentukan
hubungan antara faktor-faktor "internal" seperti harga, positioning
produk, atau staf keterampilan, dan faktor "eksternal" seperti
indikator ekonomi, persaingan, dan demografi pelanggan. Dan, hal itu
memungkinkan mereka untuk menentukan dampak pada penjualan, kepuasan pelanggan,
dan keuntungan perusahaan. Akhirnya, memungkinkan mereka untuk "drill
down" menjadi informasi ringkasan untuk melihat data transaksional detail.
Dengan data mining, pengecer bisa menggunakan catatan
point-of-penjualan pembelian pelanggan untuk mengirim promosi ditargetkan
berdasarkan sejarah pembelian individu. Dengan pertambangan data demografis
dari komentar atau jaminan kartu, pengecer bisa mengembangkan produk dan
promosi untuk menarik segmen pelanggan tertentu. Sebagai contoh, tambang
Hiburan Blockbuster penyewaan video sejarah database-nya untuk merekomendasikan
sewa kepada pelanggan individu. American Express dapat menyarankan produk
kepada pemegang kartu berdasarkan analisis pengeluaran bulanan mereka.
WalMart adalah perintis data mining besar untuk mengubah
hubungan pemasok nya. WalMart menangkap transaksi point-of-sale dari lebih dari
2.900 toko di 6 negara dan terus menerus mengirimkan data ini menjadi 7,5
terabyte Teradata gudang besar-besaran data. WalMart memungkinkan lebih dari
3.500 pemasok, untuk mengakses data pada produk mereka dan melakukan analisis
data. Pemasok ini menggunakan data ini untuk mengidentifikasi pola pembelian
pelanggan pada tingkat tampilan toko. Mereka menggunakan informasi ini untuk
mengelola persediaan toko lokal dan mengidentifikasi peluang merchandise baru.
Pada tahun 1995, komputer WalMart diproses lebih dari 1 juta query data yang
kompleks.
National Basketball Association (NBA) sedang
mengeksplorasi aplikasi data mining yang dapat digunakan bersama dengan rekaman
gambar permainan basket. Perangkat lunak Pramuka Lanjutan menganalisis gerakan
pemain untuk membantu pelatih mengorganisir drama dan strategi. Misalnya, analisis
play-by-play lembar pertandingan dimainkan antara New York Knicks dan Cleveland
Cavaliers pada 6 Januari 1995 mengungkapkan bahwa ketika Mark Price memainkan
posisi Guard, John Williams mencoba empat tembakan melompat dan membuat
masing-masing satu! Pramuka canggih tidak hanya menemukan pola ini, tetapi
menjelaskan bahwa itu adalah menarik karena berbeda jauh dari rata-rata
persentase menembak 49.30% untuk Cavaliers selama pertandingan itu. Dengan
menggunakan jam yang universal NBA, pelatih secara otomatis dapat membuka klip
video yang menunjukkan setiap tembakan melompat dicoba oleh Williams dengan
Harga di lantai, tanpa perlu menyisir jam rekaman video. Mereka menunjukkan
klip sangat sukses bermain pick-and-roll di mana harga menarik pertahanan Pernak
dan kemudian menemukan Williams untuk tembakan melompat terbuka.
Bagaimana Data pekerjaan penambangan?
Sementara teknologi informasi berskala besar telah
berkembang transaksi terpisah dan sistem analitis, data mining menyediakan link
antara keduanya. Software Data mining menganalisis hubungan dan pola dalam data
transaksi disimpan berdasarkan permintaan pengguna terbuka. Beberapa jenis
perangkat lunak analitis yang tersedia: statistik, pembelajaran mesin, dan
jaringan saraf. Umumnya, salah satu dari empat jenis hubungan yang dicari:
Classes: Data yang tersimpan digunakan untuk mencari
data dalam kelompok yang telah ditentukan. Sebagai contoh, sebuah rantai
restoran bisa menambang Data pembelian pelanggan untuk menentukan kapan
pelanggan mengunjungi dan apa yang mereka biasanya memesan. Informasi ini dapat
digunakan untuk meningkatkan lalu lintas dengan memiliki spesial sehari-hari.
Cluster: Data item dikelompokkan menurut hubungan
logis atau preferensi konsumen. Sebagai contoh, data dapat ditambang untuk mengidentifikasi
segmen pasar atau afinitas konsumen.
Asosiasi: Data dapat ditambang untuk mengidentifikasi
asosiasi. Bir-popok contoh adalah contoh pertambangan asosiatif.
Pola sekuensial: Data ditambang untuk mengantisipasi pola
perilaku dan tren. Sebagai contoh, pengecer peralatan outdoor dapat memprediksi
kemungkinan ransel yang dibeli berdasarkan pembelian konsumen tidur tas dan
sepatu hiking.
Data mining terdiri dari lima elemen utama:
Ekstrak, transformasi, dan data transaksi beban ke sistem
data warehouse.
Menyimpan dan mengelola data dalam sistem database
multidimensi.
Menyediakan akses ke analis bisnis dan profesional
teknologi informasi data.
Menganalisis data dengan perangkat lunak aplikasi.
Menyajikan data dalam format yang berguna, seperti grafik
atau tabel.
Berbagai tingkat analisis yang tersedia:
Jaringan syaraf tiruan: model prediksi Non-linear yang
belajar melalui pelatihan dan menyerupai jaringan syaraf biologis dalam
struktur.
Algoritma genetik: Optimasi teknik yang menggunakan proses seperti
kombinasi genetik, mutasi, dan seleksi alam dalam desain berdasarkan konsep
evolusi alam.
Pohon keputusan: struktur pohon berbentuk yang mewakili set
keputusan. Keputusan ini menghasilkan aturan untuk klasifikasi dataset. Metode
pohon keputusan spesifik termasuk Klasifikasi dan Pohon Regresi (CART) dan Chi
Square, Automatic Interaction Detection (CHAID). CART dan CHAID teknik pohon
keputusan digunakan untuk klasifikasi dataset. Mereka menyediakan seperangkat
aturan yang dapat Anda terapkan untuk yang baru (unclassified) dataset untuk
memprediksi catatan akan memiliki hasil yang diberikan. Segmen CART dataset
dengan menciptakan 2-way split sementara segmen CHAID menggunakan tes chi
square untuk menciptakan multi-arah perpecahan. Kereta biasanya membutuhkan
persiapan data kurang dari CHAID.
Metode tetangga terdekat: Sebuah teknik yang
mengklasifikasikan setiap record dalam dataset berdasarkan pada kombinasi kelas
dari catatan k (s) yang paling mirip dengan itu dalam dataset sejarah (di mana
k 1). Kadang-kadang disebut teknik tetangga k-terdekat.
Aturan induksi: Ekstraksi berguna jika-maka aturan dari
data berdasarkan signifikansi statistik.
Data visualisasi: Interpretasi visual hubungan yang kompleks
dalam data multidimensi. Alat grafis yang digunakan untuk menggambarkan
hubungan data.
infrastruktur teknologi Apa yang dibutuhkan?
Saat ini, aplikasi data mining yang tersedia pada semua
sistem ukuran untuk mainframe, client / server, dan platform PC. Sistem harga
berkisar dari beberapa ribu dolar untuk aplikasi terkecil hingga $ 1 juta per
terabyte untuk terbesar. Aplikasi enterprise-wide umumnya berkisar dalam ukuran
dari 10 gigabyte untuk lebih dari 11 terabyte. NCR memiliki kapasitas untuk
memberikan aplikasi melebihi 100 terabyte. Ada dua driver teknologi penting:
Ukuran database: semakin banyak data yang sedang diproses dan
dipelihara, semakin kuat sistem yang diperlukan.
Permintaan kompleksitas: semakin kompleks pertanyaan dan semakin
besar jumlah permintaan sedang diproses, semakin kuat sistem yang diperlukan.
Penyimpanan database relasional dan teknologi manajemen
memadai untuk banyak aplikasi data mining kurang dari 50 gigabyte. Namun,
infrastruktur ini perlu ditingkatkan secara signifikan untuk mendukung aplikasi
yang lebih besar. Beberapa vendor telah menambahkan kemampuan pengindeksan luas
untuk meningkatkan kinerja query. Lainnya menggunakan arsitektur hardware baru
seperti Prosesor Massively Paralel (MPP) untuk mencapai perbaikan
order-of-besarnya dalam waktu query. Sebagai contoh, sistem MPP dari ratusan
tautan NCR prosesor Pentium berkecepatan tinggi untuk mencapai tingkat kinerja
yang lebih besar dari super komputer terbesar.
Kita juga punya nih artikel mengenai Data Flow Diagram, silahkan dikunjungi dan dibaca, berikut http://repository.gunadarma.ac.id/bitstream/123456789/1359/1/50407997.pdf
ReplyDeleteTerimakasih
kalo translate dirapiin dulu gan
ReplyDeleteThis comment has been removed by the author.
ReplyDelete