Mi az adatbányászat? Alapok és technikái.

A negyedik ipari forradalom megalapozása nagymértékben függ az adatoktól(Data) és a kapcsolatoktól(Connectivity) . Ebben kulcsszerepet kapnak az adatbányászati ​​megoldások fejlesztésére vagy létrehozására képes elemzési szolgáltatások . (Analysis Services)Segíthet elemezni és előre jelezni az ügyfelek vásárlási magatartásának eredményeit a potenciális vásárlók megcélzása érdekében. Az adatok(Data) új természeti erőforrássá válnak, és az ezekből a rendezetlen adatokból releváns információk kinyerésének folyamata óriási jelentőséggel bír. Mint ilyen, az adatbányászat(Data Mining) kifejezés , annak folyamatai és alkalmazása megfelelő megértése segíthet nekünk e divatszó holisztikus megközelítésének kidolgozásában.

Az adatbányászat alapjai(Data Mining Basics) és technikái

adatbányászat

Az adatbányászat, más néven Knowledge Discovery in Data ( KDD ) az adatok nagy tárolóiban való keresésről szól, hogy olyan mintákat és trendeket tárjanak fel, amelyek túlmutatnak az egyszerű elemzésen. Ez azonban nem egy lépésből álló megoldás, hanem több lépésből álló folyamat, és több szakaszban fejeződik be. Ezek tartalmazzák:

1] Adatgyűjtés és előkészítés

Az adatgyűjtéssel és annak megfelelő szervezésével kezdődik. Ez jelentősen javítja az adatbányászattal feltárható információk megtalálásának esélyét

2] Modellépítés és -értékelés

Az adatbányászati ​​folyamat második lépése a különféle modellezési technikák alkalmazása. Ezek a paraméterek optimális értékekre történő kalibrálására szolgálnak. Az alkalmazott technikák nagymértékben függenek a szervezeti igények skálájának kielégítéséhez és a döntés meghozatalához szükséges analitikai képességektől.

Nézzünk meg néhány adatbányászati ​​technikát röviden. Megállapítást nyert, hogy a legtöbb szervezet két vagy több adatbányászati ​​technikát kombinál, hogy megfelelő folyamatot hozzon létre, amely megfelel üzleti követelményeinek.

Olvassa el(Read) : Mi az a Big Data?(What is Big Data?)

Adatbányászati ​​technikák

  1. Az asszociáció –  Az (Association – )asszociáció(Association) az egyik legismertebb adatbányászati ​​technika. Ennek értelmében egy minta megfejtése ugyanazon tranzakció elemei közötti kapcsolat alapján történik. Ezért(Hence) relációs technikának is nevezik. A nagy márkakereskedők erre a technikára támaszkodnak az ügyfelek vásárlási szokásainak/preferenciáinak kutatása során. Például az emberek vásárlási szokásainak nyomon követésekor a kereskedők megállapíthatják, hogy a vásárló mindig tejszínt vásárol, amikor csokoládét vesz, és ezért azt javasolják, hogy a következő csokoládévásárláskor tejszínt is vásároljanak.
  2. Osztályozás(Classification) – Ez az adatbányászati ​​technika abban különbözik a fentiektől, hogy gépi tanuláson alapul, és olyan matematikai technikákat használ, mint a lineáris(Linear) programozás, döntési(Decision) fák, neurális(Neural)hálózat. Az osztályozás során a vállalatok olyan szoftvereket próbálnak kiépíteni, amelyek megtanulják az adatelemek csoportokba sorolását. Például egy vállalat meghatározhat egy besorolást az alkalmazásban, amely „a cégtől való felmondást felajánló alkalmazottak összes nyilvántartását figyelembe véve megjósolja azoknak a személyeknek a számát, akik valószínűleg a jövőben felmondanak a cégtől”. Egy ilyen forgatókönyv szerint a vállalat az alkalmazottak nyilvántartását két csoportba sorolhatja, nevezetesen „kilép” és „marad”. Ezt követően adatbányászati ​​szoftverével a munkavállalókat korábban létrehozott külön csoportokba sorolhatja.
  3. Klaszterezés(Clustering)Más(Different)a hasonló jellemzőket mutató objektumok automatizálással egyetlen klaszterbe kerülnek. Sok ilyen klasztert osztályként hoznak létre, és ennek megfelelően helyeznek el benne objektumokat (hasonló jellemzőkkel). Hogy ezt jobban megértsük, vegyünk egy példát a könyvtári könyvkezelésre. Egy könyvtárban a hatalmas könyvgyűjtemény teljesen katalogizált. Az azonos típusú tételek együtt vannak felsorolva. Így könnyebben megtaláljuk a számunkra érdekes könyvet. Hasonlóan, a klaszterezési technikával olyan könyveket is tarthatunk, amelyekben valamilyen hasonlóság van, egy klaszterben, és megfelelő nevet rendelhetünk hozzá. Tehát, ha az olvasó az érdeklődésének megfelelő könyvet szeretne megragadni, csak arra a polcra kell mennie, ahelyett, hogy a teljes könyvtárban keresne. Így a klaszterezési technika meghatározza az osztályokat, és objektumokat helyez el minden osztályba,
  4. Előrejelzés(Prediction) – Az előrejelzés egy adatbányászati ​​technika, amelyet gyakran más adatbányászati ​​technikákkal kombinálva használnak. Ez magában foglalja a trendek elemzését, az osztályozást, a mintaillesztést és a kapcsolatokat. A múltbeli események vagy esetek megfelelő sorrendben történő elemzésével biztonságosan megjósolható egy jövőbeli esemény. Például az előrejelzési elemzési technika használható az értékesítésben a jövőbeli profit előrejelzésére, ha az eladást független változóként, a profitot pedig az értékesítéstől függő változóként választják. Ezután a múltbeli eladási és nyereségadatok alapján rajzolhatunk egy illesztett regressziós görbét, amelyet a profit előrejelzésére használunk.
  5. Döntési fák(Decision trees) – A döntési fán belül egy egyszerű kérdéssel kezdünk, amelyre több válasz is van. Minden válasz egy további kérdéshez vezet, amely segít az adatok osztályozásában vagy azonosításában, hogy kategorizálható legyen, vagy hogy az egyes válaszok alapján előrejelzést lehessen készíteni. Például a következő döntési fát használjuk annak meghatározására, hogy játszunk-e krikett ODI -t : Adatbányászati ​​döntési fa(Data Mining Decision Tree) : A gyökércsomóponttól kezdve, ha az időjárás-előrejelzés esőt jósol, akkor kerüljük a mérkőzést aznap. Alternatív megoldásként, ha az időjárás előrejelzés világos, akkor le kell játszani a mérkőzést.

Az adatbányászat(Data Mining) az analitikai erőfeszítések középpontjában áll számos iparágban és tudományágban, mint például a kommunikáció, a biztosítás(Insurance) , az oktatás(Education) , a gyártás(Manufacturing) , a banki(Banking) és a kiskereskedelem(Retail) stb. Ezért a különböző technikák alkalmazása előtt elengedhetetlen a megfelelő információk birtokában.



About the author

Számítástechnikai szakértő vagyok, több mint 10 éves tapasztalattal, és arra specializálódtam, hogy segítsek az embereknek az irodájukban lévő számítógépeik kezelésében. Cikkeket írtam olyan témákban, mint az internetkapcsolat optimalizálása, a számítógép beállítása a legjobb játékélmény érdekében stb. Ha bármiben szeretnél segítséget kérni munkáddal vagy magánéleteddel kapcsolatban, én vagyok a megfelelő személy!



Related posts