Blog

Olyan, mint anonimizált adat, nem létezik?

2009.09.08. 20:31:59, Gulyás Gábor

Mostanában egyre többször merül fel a kérdés, és van, amikor már a privátszféra végét jósolgatják. Gondoljunk például arra az esetre, amikor az AOL kiadott anonimizált keresési kifejezéseket, aminek az eredménye az lett, hogy végül is csak ki lehetett deríteni, hogy kik hajtottak végre egyes kereséseket, és az AOL-nál emberek kezdték elveszíteni a munkájukat emiatt. Aztán például a Netflix anonimizált adatbázisán is végre tudtak hajtani hasonló de-anonimizáló támadást, de torrent hálózatok esetén is sikerült már pusztán a kapcsolatok struktúrjából hozzávetőlegesen az identitásra következtetni. Most pedig megjelent egy újabb riogató cikk a témában.

Sajtó van elég, az angolul tudók biztosan utána tudnak járni – inkább egy témába vágó, de érdekes eredményről írok most. A Netflix-es cikk szerzői idén publikálták néhány eredményüket, ami közösségi hálózatok de-anonimizálásról szól. Itt úgy kerülhet szóba ez a probléma, hogy hirdetőknek, üzleti partnereknek vagy akár kutatóknak kiadnak anonimizált hálózatokat, hálózat részleteket (ahol csak az egyes csomópontok nevei, azonosítói hiányoznak, és csak néhány mező van kitöltve), és ezek a harmadik felek megpróbálják újracímkézni a hálózatot annak reményében, hogy ezzel új információhoz jutnak hozzá.

Idén Narayanan és Shmatikov, a fent említett szerzőpáros, publikált egy olyan algoritmust, amelynek segítségével nagy hatékonysággal voltak képesek ezt elvégezni, és az algoritmusuk elég egyszerűnek mondható. Először vesznek egy anonimizált, majd egy segédgráfot. A segédgráf lehet kicsi is, azaz úgy is szert lehet rá tenni, hogy egy megfelelő szoftver segítségével kinyerik egy publikus közösségi hálózat egy részét (pl. Twitter követők-követettek). Majd ebből kiválasztanak egy klikket (4-es klikkmérettel dolgoznak), és annak tulajdonságai alapján igyekeznek megtalálni azt az anonimizált gráfban. Utána pedig fokozatosan kiterjesztik az ismert területet az anonimizált gráfban. Ennyire egyszerű, és a cikk alapján elég hatékonynak tűnik: viszonylag kicsit segédgráf esetén is hatékony a de-anonimizáció; ráadásul az algoritmussal a felhasználóknak nagyjából a 31%-át sikerült megtalálni, 12% körül volt a tévedések száma, és 57%-át nem sikerült de-anonimizálni.

Valóban ideje elgondolkoznunk azon, hogy mit lehetne tenni, mert a meta-információk túl sokat árulnak el rólunk.

Hozzászólások

Összesen 0 hozzászólás látható.

Nincsenek hozzászólások.


A hozzászóláshoz be kell jelentkezni!

© PET Portál és Blog, 2008-2010 | Impresszum | Adatvédelmi nyilatkozat