Mi az adatbányászat? Alapok és technikái.
A negyedik ipari forradalom megalapozása nagymértékben függ az adatoktól(Data) és a kapcsolatoktól(Connectivity) . Ebben kulcsszerepet kapnak az adatbányászati megoldások fejlesztésére vagy létrehozására képes elemzési szolgáltatások . (Analysis Services)Segíthet elemezni és előre jelezni az ügyfelek vásárlási magatartásának eredményeit a potenciális vásárlók megcélzása érdekében. Az adatok(Data) új természeti erőforrássá válnak, és az ezekből a rendezetlen adatokból releváns információk kinyerésének folyamata óriási jelentőséggel bír. Mint ilyen, az adatbányászat(Data Mining) kifejezés , annak folyamatai és alkalmazása megfelelő megértése segíthet nekünk e divatszó holisztikus megközelítésének kidolgozásában.
Az adatbányászat alapjai(Data Mining Basics) és technikái
Az adatbányászat, más néven Knowledge Discovery in Data ( KDD ) az adatok nagy tárolóiban való keresésről szól, hogy olyan mintákat és trendeket tárjanak fel, amelyek túlmutatnak az egyszerű elemzésen. Ez azonban nem egy lépésből álló megoldás, hanem több lépésből álló folyamat, és több szakaszban fejeződik be. Ezek tartalmazzák:
1] Adatgyűjtés és előkészítés
Az adatgyűjtéssel és annak megfelelő szervezésével kezdődik. Ez jelentősen javítja az adatbányászattal feltárható információk megtalálásának esélyét
2] Modellépítés és -értékelés
Az adatbányászati folyamat második lépése a különféle modellezési technikák alkalmazása. Ezek a paraméterek optimális értékekre történő kalibrálására szolgálnak. Az alkalmazott technikák nagymértékben függenek a szervezeti igények skálájának kielégítéséhez és a döntés meghozatalához szükséges analitikai képességektől.
Nézzünk meg néhány adatbányászati technikát röviden. Megállapítást nyert, hogy a legtöbb szervezet két vagy több adatbányászati technikát kombinál, hogy megfelelő folyamatot hozzon létre, amely megfelel üzleti követelményeinek.
Olvassa el(Read) : Mi az a Big Data?(What is Big Data?)
Adatbányászati technikák
- Az asszociáció – Az (Association – )asszociáció(Association) az egyik legismertebb adatbányászati technika. Ennek értelmében egy minta megfejtése ugyanazon tranzakció elemei közötti kapcsolat alapján történik. Ezért(Hence) relációs technikának is nevezik. A nagy márkakereskedők erre a technikára támaszkodnak az ügyfelek vásárlási szokásainak/preferenciáinak kutatása során. Például az emberek vásárlási szokásainak nyomon követésekor a kereskedők megállapíthatják, hogy a vásárló mindig tejszínt vásárol, amikor csokoládét vesz, és ezért azt javasolják, hogy a következő csokoládévásárláskor tejszínt is vásároljanak.
- Osztályozás(Classification) – Ez az adatbányászati technika abban különbözik a fentiektől, hogy gépi tanuláson alapul, és olyan matematikai technikákat használ, mint a lineáris(Linear) programozás, döntési(Decision) fák, neurális(Neural)hálózat. Az osztályozás során a vállalatok olyan szoftvereket próbálnak kiépíteni, amelyek megtanulják az adatelemek csoportokba sorolását. Például egy vállalat meghatározhat egy besorolást az alkalmazásban, amely „a cégtől való felmondást felajánló alkalmazottak összes nyilvántartását figyelembe véve megjósolja azoknak a személyeknek a számát, akik valószínűleg a jövőben felmondanak a cégtől”. Egy ilyen forgatókönyv szerint a vállalat az alkalmazottak nyilvántartását két csoportba sorolhatja, nevezetesen „kilép” és „marad”. Ezt követően adatbányászati szoftverével a munkavállalókat korábban létrehozott külön csoportokba sorolhatja.
- Klaszterezés(Clustering) – Más(Different)a hasonló jellemzőket mutató objektumok automatizálással egyetlen klaszterbe kerülnek. Sok ilyen klasztert osztályként hoznak létre, és ennek megfelelően helyeznek el benne objektumokat (hasonló jellemzőkkel). Hogy ezt jobban megértsük, vegyünk egy példát a könyvtári könyvkezelésre. Egy könyvtárban a hatalmas könyvgyűjtemény teljesen katalogizált. Az azonos típusú tételek együtt vannak felsorolva. Így könnyebben megtaláljuk a számunkra érdekes könyvet. Hasonlóan, a klaszterezési technikával olyan könyveket is tarthatunk, amelyekben valamilyen hasonlóság van, egy klaszterben, és megfelelő nevet rendelhetünk hozzá. Tehát, ha az olvasó az érdeklődésének megfelelő könyvet szeretne megragadni, csak arra a polcra kell mennie, ahelyett, hogy a teljes könyvtárban keresne. Így a klaszterezési technika meghatározza az osztályokat, és objektumokat helyez el minden osztályba,
- Előrejelzés(Prediction) – Az előrejelzés egy adatbányászati technika, amelyet gyakran más adatbányászati technikákkal kombinálva használnak. Ez magában foglalja a trendek elemzését, az osztályozást, a mintaillesztést és a kapcsolatokat. A múltbeli események vagy esetek megfelelő sorrendben történő elemzésével biztonságosan megjósolható egy jövőbeli esemény. Például az előrejelzési elemzési technika használható az értékesítésben a jövőbeli profit előrejelzésére, ha az eladást független változóként, a profitot pedig az értékesítéstől függő változóként választják. Ezután a múltbeli eladási és nyereségadatok alapján rajzolhatunk egy illesztett regressziós görbét, amelyet a profit előrejelzésére használunk.
- Döntési fák(Decision trees) – A döntési fán belül egy egyszerű kérdéssel kezdünk, amelyre több válasz is van. Minden válasz egy további kérdéshez vezet, amely segít az adatok osztályozásában vagy azonosításában, hogy kategorizálható legyen, vagy hogy az egyes válaszok alapján előrejelzést lehessen készíteni. Például a következő döntési fát használjuk annak meghatározására, hogy játszunk-e krikett ODI -t : Adatbányászati döntési fa(Data Mining Decision Tree) : A gyökércsomóponttól kezdve, ha az időjárás-előrejelzés esőt jósol, akkor kerüljük a mérkőzést aznap. Alternatív megoldásként, ha az időjárás előrejelzés világos, akkor le kell játszani a mérkőzést.
Az adatbányászat(Data Mining) az analitikai erőfeszítések középpontjában áll számos iparágban és tudományágban, mint például a kommunikáció, a biztosítás(Insurance) , az oktatás(Education) , a gyártás(Manufacturing) , a banki(Banking) és a kiskereskedelem(Retail) stb. Ezért a különböző technikák alkalmazása előtt elengedhetetlen a megfelelő információk birtokában.
Related posts
26 legjobb adatbányászati szoftver
Az automatikus adattípus funkció használata az Excelben
A BitLocker telepítőjének nem sikerült exportálnia a BCD (Boot Configuration Data) tárolót
Az adathasználati korlát kezelése Windows 11/10 rendszeren
Nem lehet importálni a rendszerleíró fájlt. Nem minden adatot írtak a Registry-be
Tiltsa le a telemetriát és az adatgyűjtést a Windows 10 rendszerben a Feladatütemező segítségével
A Narrátor használatára vonatkozó diagnosztikai adatok be- és kikapcsolása a Windows 10 rendszerben
Mi a különbség az adat és az információ között
A LinkedIn adatok letöltése a LinkedIn Data Export Tool segítségével
Mire számíthat a Facebook Data History letöltésekor
0x8004010F hiba, az Outlook adatfájlja nem érhető el
Hozzon létre GIF-eket a Google Labs új Data GIF-készítőjével
Miért gyűjtenek, adnak el, vásárolnak vagy tárolnak személyes adatokat a cégek?
BurnAware ingyenes letöltés: Ingyenes CD, DVD, Blu-Ray, HD-médiaíró
10 legjobb professzionális biztonsági mentési és adat-helyreállító szoftver a Windows 10 rendszerhez
A legjobb ingyenes online adatvizualizációs eszközök
A Samsung Data Migration 0%, 99% vagy 100%
A BCD vagy a rendszerindítási konfigurációs adatfájl újraépítése a Windows 11/10 rendszerben
Disk Drill for Windows: Véletlenül törölt fájlok helyreállítása
Az EaseUS Data Recovery Wizard Free lehetővé teszi az elveszett vagy törölt adatok helyreállítását