Razlika Med KDD In Data Mining

Razlika Med KDD In Data Mining
Razlika Med KDD In Data Mining

Video: Razlika Med KDD In Data Mining

Video: Razlika Med KDD In Data Mining
Video: Клиника мошенников 2024, Maj
Anonim

KDD vs Data mining

KDD (Odkrivanje znanja v zbirkah podatkov) je področje računalništva, ki vključuje orodja in teorije, ki ljudem pomagajo pri pridobivanju koristnih in prej neznanih informacij (tj. Znanja) iz velikih zbirk digitaliziranih podatkov. KDD je sestavljen iz več korakov in Data Mining je eden izmed njih. Data Mining je uporaba posebnega algoritma za pridobivanje vzorcev iz podatkov. Kljub temu se KDD in Data Mining uporabljata medsebojno.

Kaj je KDD?

Kot smo že omenili, je KDD področje računalništva, ki se ukvarja z pridobivanjem prej neznanih in zanimivih informacij iz surovih podatkov. KDD je celoten postopek poskušanja osmišljanja podatkov z razvojem ustreznih metod ali tehnik. Ta postopek se ukvarja s preslikavo podatkov na nizki ravni v druge oblike, ki so bolj kompaktne, abstraktne in uporabne. To dosežemo z ustvarjanjem kratkih poročil, modeliranjem postopka pridobivanja podatkov in razvojem napovednih modelov, ki lahko predvidijo prihodnje primere. Zaradi eksponentne rasti podatkov, zlasti na področjih, kot je poslovanje, je KDD postal zelo pomemben postopek za pretvorbo tega velikega bogastva podatkov v poslovno inteligenco, saj je ročno pridobivanje vzorcev v zadnjih nekaj desetletjih na videz nemogoče. Na primer,trenutno se uporablja za različne aplikacije, kot so analiza socialnih omrežij, odkrivanje prevar, znanost, naložbe, proizvodnja, telekomunikacije, čiščenje podatkov, šport, iskanje informacij in predvsem za trženje. KDD se običajno uporablja za odgovore na vprašanja, na primer, kateri so glavni proizvodi, ki bi lahko pripomogli k visokemu dobičku prihodnje leto v Wal-Martu. Ta postopek ima več korakov. Začne se z razvojem razumevanja domene aplikacije in cilja ter nato z ustvarjanjem ciljnega nabora podatkov. Sledi čiščenje, predobdelava, zmanjšanje in projiciranje podatkov. Naslednji korak je uporaba podatkovnega rudarjenja (razloženo spodaj) za prepoznavanje vzorca. Na koncu se odkrito znanje utrjuje z vizualizacijo in / ali interpretacijo.šport, iskanje informacij in predvsem za trženje. KDD se običajno uporablja za odgovore na vprašanja, na primer kateri so glavni proizvodi, ki bi lahko pomagali doseči visok dobiček prihodnje leto v Wal-Martu ?. Ta postopek ima več korakov. Začne se z razvojem razumevanja domene aplikacije in cilja ter nato z ustvarjanjem ciljnega nabora podatkov. Sledi čiščenje, predobdelava, zmanjšanje in projiciranje podatkov. Naslednji korak je uporaba podatkovnega rudarjenja (razloženo spodaj) za prepoznavanje vzorca. Na koncu se odkrito znanje utrjuje z vizualizacijo in / ali interpretacijo.šport, iskanje informacij in predvsem za trženje. KDD se običajno uporablja za odgovore na vprašanja, na primer kateri so glavni proizvodi, ki bi lahko pomagali doseči visok dobiček prihodnje leto v Wal-Martu ?. Ta postopek ima več korakov. Začne se z razvojem razumevanja domene aplikacije in cilja ter nato z ustvarjanjem ciljnega nabora podatkov. Sledi čiščenje, predobdelava, zmanjšanje in projiciranje podatkov. Naslednji korak je uporaba podatkovnega rudarjenja (razloženo spodaj) za prepoznavanje vzorca. Na koncu se odkrito znanje utrjuje z vizualizacijo in / ali interpretacijo. Začne se z razvojem razumevanja domene aplikacije in cilja ter nato z ustvarjanjem ciljnega nabora podatkov. Sledi čiščenje, predobdelava, zmanjšanje in projiciranje podatkov. Naslednji korak je uporaba podatkovnega rudarjenja (razloženo spodaj) za prepoznavanje vzorca. Na koncu se odkrito znanje utrjuje z vizualizacijo in / ali interpretacijo. Začne se z razvojem razumevanja domene aplikacije in cilja ter nato z ustvarjanjem ciljnega nabora podatkov. Sledi čiščenje, predobdelava, zmanjšanje in projiciranje podatkov. Naslednji korak je uporaba podatkovnega rudarjenja (razloženo spodaj) za prepoznavanje vzorca. Na koncu se odkrito znanje utrjuje z vizualizacijo in / ali interpretacijo.

Kaj je Data Mining?

Kot smo že omenili, je rudarjenje podatkov le korak v celotnem postopku KDD. Obstajata dva glavna cilja Data Mining, kot ju opredeljuje cilj aplikacije, in sicer sta preverjanje ali odkrivanje. Preverjanje preverja hipotezo uporabnika o podatkih, medtem ko odkritje samodejno najde zanimive vzorce. Obstajajo štiri glavne naloge rudarjenja podatkov: združevanje v skupine, klasifikacija, regresija in povezovanje (povzetek). Grozdenje je prepoznavanje podobnih skupin iz nestrukturiranih podatkov. Klasifikacija je učna pravila, ki jih je mogoče uporabiti za nove podatke. Regresija je iskanje funkcij z minimalno napako pri modeliranju podatkov. In združenje išče razmerja med spremenljivkami. Nato je treba izbrati poseben algoritem za podatkovno rudarjenje. Glede na cilj so različni algoritmi, kot so linearna regresija, logistična regresija,drevesa odločanja in Naive Bayes. Nato se poiščejo vzorci zanimanja za eno ali več predstavitvenih oblik. Končno se modeli ocenjujejo bodisi s pomočjo napovedne natančnosti ali razumljivosti.

Kakšna je razlika med KDD in Data mining?

Čeprav se izraza KDD in Data Mining pogosto uporabljata medsebojno zamenljivo, se nanašata na dva povezana, a nekoliko različna koncepta. KDD je celoten postopek pridobivanja znanja iz podatkov, medtem ko je Data Mining korak znotraj procesa KDD, ki se ukvarja z prepoznavanjem vzorcev v podatkih. Z drugimi besedami, Data Mining je le uporaba določenega algoritma, ki temelji na splošnem cilju procesa KDD.

Priporočena: