Tanulmány megtekintése

Stifán Orsolya: Adatbányászat és adatvédelem

Absztrakt
Bár a szakirodalomban egyre több szó esik az adatbányászat területéről, gyakorlati alkalmazásával Magyarországon csak a legnagyobb vállalatok, a
bankok, biztosítók és telekommunikációs cégek esetében találkozhatunk. Az 1992. évi LXIII. törvény foglalkozik a személyes adatok védelmével, melynek
az EU-csatlakozás utáni hatályos szövegében már megjelenik az automatizált egyedi döntés fogalma, még eléggé puhán megragadva az adatbányászat egy
alkalmazását, de a törvényben kétségkívül felfedezhetjük a szabályozás első jeleit. A tanulmány az adatbányászat és az adatvédelem viszonyát mutatja be, kiemelve a kritikus pontokat.

Kulcsszavak: adatvédelem, adatbányászat, személyes adat, PPDM (Privacy preserving data mining)

Vissza a tanulmányokhoz

1. Az adatbányászat alapjairól

1.1. Az adatbányászat mibenléte

Az adatok gyűjtésének célja, hogy azokból információt nyerjünk ki, mely felhasználható üzleti döntések eredményes meghozatalához, azaz „rejtett, ismeretlen, potenciálisan hasznos tudás kinyerése az adatokból, nem triviális módon”. [1] Az adatbányászat ennek a folyamatnak egy lépése, melyet megelőz az adatkiválasztás, tisztítás, bővítés és kódolás. A szó maga először negatív felhanggal jelent meg az 1960-as években, lenézett tevékenységhez hasonlítva azt, hiszen a korábbi alapos statisztikai módszerekkel szemben az adatbányászat valóban kevésbé „tűnt” tudományos tevékenységnek. A bányászat arra utalt, hogy ha valaki kellő időt tölt az adatok vizsgálatával, akkor valószínűleg találni fog olyan összefüggést, melynek különös fontosságot tulajdoníthat. Később, a bányászat szó már másra utalt: a valódi bányászattal analóg módon a megmozgatott tömeg és a talált érték viszonyára. Az adatbányászat számtalan definíciójának közös elemei: nagy adatbázisokból, rejtett tudás kinyerése, új, nem várt minták automatikus felfedezése.

Az adatbányászat térnyerését a nagy adattömegek rendelkezésre állása katalizálta, amelyek a vállalatok tranzakciós rendszereiben milliószámra termelődtek napról napra. Később, a hasznosnak vélt adatokat a vállalatok adattárházakba rendezték. Már a 80-as évektől ODBC kapcsolatokon keresztül SQL lekérdező nyelv segítségével sikerrel hozzáfértek az adatok nagy részéhez, de a rejtett információ kinyerésére — melyhez való hozzáférés formalizáltan nem volt megadható — még várni kellett. A multiprocesszoros gépek, a hálózatok elterjedése és a fejlett algoritmusok rendelkezésre állása újabb lendületet adott az adatbányászatnak. A korábbi rendszerekkel (döntéstámogató és felsővezetői információrendszerek) ellentétben — melyek főleg a múltra irányultak — az adatbányász eszközök már a jövőt fürkészték.

1.2. Adatbányászat, OLAP és statisztika

Az adatbányászat mibenlétét sokszor az OLAP-hoz (On-Line Analitical Processing) képest kellett bemutatni, hiszen sok vállalat már alkalmazta ezt a humán intelligencián alapuló riportoló eszközt, amely előre definiált riportokat képes prezentálni. Ezzel szemben az adatbányászat adatvezérelt, emberi előfeltételezések nélkül képes automatizált mintafeltárásra, előrejelzésre. Az OLAP és az adatbányászat egymás segítségére is lehet, erről bővebben lásd [2].

A statisztika az adatbányászathoz hasonlóan szintén modelleket állít fel. Ezek a modellek azonban az ún. top-down módszert alkalmazzák, azaz egy előre megfogalmazott teórián nyugvó hipotézis tesztelése áll a középpontban, adott mintából következtetünk a sokaságra, a teljes alapsokaságra vonatkozó a priori ismeretek és egyéb segédinformációk felhasználásával. (A két terület hasonlóságairól és eltéréseiről lásd [3].)

A statisztika és az adatbányászat egymással erőteljesen átfedő területek, nem lehet éles határt húzni a kettő között. Tekintsük például a többváltozós statisztikai modelleket. Ezek először a statisztikai irodalomban jelentek meg, később az adatbányászat is hozzáadott a területhez, és az adatbányászati eszköztárnak is jelentős részét képezik.

A tanulmány első fejezetét kiemeltük, de a tanulmány teljes egészében letölthető és olvasható PDF formátumban, az oldalon lentebb található link segítségével, vagy kattintson a borítóra a betöltéséhez!


Forrás:

Szabad adatok, védett adatok, BME GTK ITM, Budapest, 2005. március. (ISSN: 1587-2386, ISBN: 963-421-566-1)


Vissza a tanulmányokhoz


Hozzászólások

Összesen 0 hozzászólás látható.

Nincsenek hozzászólások.


A hozzászóláshoz be kell jelentkezni!

© PET Portál és Blog, 2008-2010 | Impresszum | Adatvédelmi nyilatkozat