Dark & Dirty Data, czyli dane po mrocznej i brudnej stronie mocy
Gdyby Imperium Dartha Vadera zaadaptowało analitykę Big Data na Gwieździe Śmierci, to rozniosłoby Zakon Jedi oraz Rebeliantów w drobny mak, wygrywając gwiezdne wojny Darth Vader przepuścił tę okazję, przez co tony cennych danych krążących po galaktyce spowił mrok.
Niewykorzystane dane stały się Dark Data. Na domiar złego Rebelianci rozpowszechniali nieprawdziwe informacje, które miały wprowadzić wywiadowców Imperium w błąd. Zanieczyszczali strumień danych, generując tzw. Dirty Data, które Imperium brało za dobrą monetę. To właśnie te dwa oblicza danych, Dark Data i Dirty Data, przesądziły o klęsce Imperium. Zanim obejrzycie siódmą część Gwiezdnych Wojen, musicie zdać sobie sprawę z tego, że jest to przede wszystkim saga o blaskach i cieniach analityki danych w organizacji. Nawet takiej, jak Gwiazda Śmierci.
Moc jest w danych
Wcale nie tak dawno temu, we wcale nie tak odległej galaktyce danych zwanej Internetem, doszło do wielkiego wybuchu Big Data, którego skutki odczuwamy do dziś. Dziś tylko w ciągu 1 sekundy przez sieć przepływa tyle danych, ile liczył cały Internet 20 lat temu. Dziś tylko jedno wyszukiwanie w Google angażuje tyle mocy obliczeniowej, ile wymagał cały program kosmiczny Apollo. Wszystko za sprawą wielkich zbiorów danych. Big Data zalała sieć, a ich produkcja wymknęła się czyjejkolwiek kontroli. Internet zaczął obrastać w Big Data niczym Jabba the Hutt w tłuszczyk. Według Oracle dzisiejsza sieć rozrasta się w dane w dwucyfrowym tempie: o ponad 40 proc. w skali roku. Obecnie liczy ponad 6 ZB (Zettabajtów), zaś do 2020 roku sięgnie już 45 ZB.
Gdyby Vader zdecydował się te dane krążące po galaktyce analizować i wdrożył Big Data na Gwieździe Śmierci, imperialni badacze danych bez większego trudu dokopaliby się do informacji, że np. taki Luke Skywalker (syn i przyszły pogromca Vadera) żyje na Tatooine. Porywając go stamtąd szturmowcy zmieniliby bieg historii. Odkryliby też, że Leia to siostra Luke’a. Tak samo sprawa przedstawia się z odszukaniem i unieszkodliwieniem nieuchwytnego Obi Wana Kenobiego, który ukrywał się pod jakże zaskakującą tożsamością: Ben Kenobi. Brnijmy dalej: gdyby załoga Gwiazdy Śmierci gromadziła i przetwarzała dane o obywatelach Starej Republiki (tworzyła ich profile behawioralne), to bez trudu znalazłaby w ich gronie tych niezadowolonych, których – dzięki spersonalizowanym komunikatom – mogłaby zwerbować do pracy ku chwale Imperium. Gdyby Imperium zbierało dane od szturmowców dotyczące słabych elementów ich ekwipunku, to nie padaliby jak muchy. Gdyby na bieżąco monitorowało ruchy wojsk Republiki, to nie pozwoliłoby się zaskoczyć.
I jeszcze jedna sprawa: gdyby Vader wiedział, że dostęp do wiarygodnych danych i ich bezpieczeństwo przesądzi o losach Imperium, zatrudniłby ludzi, którzy nie tylko w pełni poświęciliby się budowaniu i szyfrowaniu własnych baz danych, lecz także oczyszczaniu strumienia danych generowanych przez Sojusz Rebeliantów z nieprawdziwych informacji, wyławiając ich faktyczne plany i zamiary.
Wniosek jest prosty. Jeśli marzy nam się (biznesowe) imperium, to powinniśmy nie tylko analizować Big Data, lecz także stawić czoło jej innym twarzom: Dark Data i Dirty Data. Czym właściwie są? Skąd się wzięły? I czy za ich sprawą czekają nas „cyfrowe mroczne wieki”?
Witajcie w mrocznych, brudnych czasach
Źli bracia bliźniacy. Tak najkrócej można określić Dark Data oraz Dirty Data, czyli dwie ciemne strony Big Data, które zalewają dziś Internet. „Mroczne” (Dark) i „Brudne” (Dirty) dane spędzają sen z powiek analitykom i marketerom, sabotując ich żmudną pracę. Problem jest poważny, ponieważ według szacunków IDC około 90 proc. danych w Internecie to właśnie „mroczne dane”, a blisko 10 proc. wszystkich danych w mediach społecznościowych – to z kolei „brudne dane”.
W lutym tego roku „Ojciec Internetu” i wiceprezydent Google, Vinton Gray Cerf, przemawiając do zgromadzonych w San Jose członków American Association for the Advancement of Science, mówił m.in. o konieczności bieżącej pracy nad danymi, które już zgromadziliśmy: „Digitalizujemy rzeczy, ponieważ myślimy, że dzięki temu to je uchroni. Nie rozumiemy jednak, że jeśli nie podejmiemy kolejnych kroków, to zdigitalizowane przez nas rzeczy mogą nawet okazać się gorsze od swoich rzeczywistych pierwowzorów”. Gerf mówiąc o kolejnych krokach miał na myśli przede wszystkim ciągłą weryfikację prawdziwości i aktualności danych, czyli jednego z czterech V tworzących Big Data – Veracity (obok Volume, Variety i Velocity).
Przede wszystkim jednak „Ojciec Internetu” ostrzegał przed nadchodącymi „cyfrowymi, ciemnymi wiekami”. Jako główny katalizator „Digital Dark Age” wymienił implozję danych (Big Data), zdominowanych przez Dark Data, czyli dane nieuporządkowane, nieustrukturyzowane, nieprzetworzone, surowe. Podkreślał, że to właśnie inwazja Dark Data jest dziś największym wyzwaniem stojącym przed analitykami danych. Od wyniku tej konfrontacji zależała będzie przyszłość wielu cyfrowych biznesów.
Mroczne imperium kontratakuje
Mroczność Dark Data polega nie tylko na tym, że są one zbiorem chaotycznym, lecz również na tym, że na dobrą sprawę nie wiadomo, co w sobie kryją. Mogą być jak puszka Pandory, mogą być jakimś zlepkiem cyfrowych nostalgii – ale mogą też okazać się garnkiem złota znalezionym na końcu tęczy, ponieważ będą zawierały informacje, które z powodzeniem organizacje mogą zmonetyzować bądź wykorzystać je do uzyskania pełnej, 360-stopniowej oceny profilu klienta.
Poziom Dark Data danych liczy się już w Zettabajtach. Według obliczeń Oracle Sieć liczy wprawdzie ponad 6 ZB danych, ale raptem 10 proc. z nich przedstawia sobą realną wartość i może być realnie wykorzystywanych. Pozostałe 90. proc. to – według IDC – Dark Data, czyli dane, z których organizacje nie robią żadnego użytku, a niekiedy po prostu nie wiedzą, jak można je wykorzystać.
Dlatego firmy albo gromadzą dane w surowym stanie tak „na wszelki wypadek”, „na zapas”, „na później”, łudząc się, że przyjdzie czas na ich analizę, albo w ogóle je ignorują i puszczają wolno, nie wiedząc jak się do nich zabrać lub widząc w takim przedsięwzięciu syzyfową pracę. Wskutek takiego postępowania wiele potencjalnie cennych informacji ginie w cyfrowych mrokach, stając się dla następnych pokoleń już tylko hieroglifami, których sens jest niemożliwy do odczytania.
Dark Data – spojrzeć w czarną otchłań danych
Dark Data to wciąż stosunkowo słabo eksplorowany obszar, nie tylko w sensie praktycznym, ale i teoretycznym. O „mrocznych danych” wiemy mało, toteż definicje „Dark Data” czasami poważnie się od siebie różnią.
Gartner w swoim słowniczku IT („Gartner IT Glossary”) definiuje Dark Data jako: „Zasoby informacyjne, gromadzone i przetwarzane przez organizacje podczas ich codziennej aktywności biznesowej, które na ogół nie nadają się do wykorzystania w żadnym sensownym celu”. Jednak Cory Janssen z Techopedii mówi coś nieco innego: „Dark data to rodzaj nieustrukturyzowanych, nieotagowanych i niewykorzystanych danych, które zalegają w repozytoriach danych i nie są analizowane ani przetwarzane. Można je znaleźć w plikach dziennika (log files) oraz archiwach danych, przechowywanych w dużych przedsiębiorstwach”. Widać jak na dłoni, że te dwie definicje są ze sobą sprzeczne w jednym punkcie. Gartner mówi o „przetwarzaniu Dark Data”, zaś Techopedia głosi coś odwrotnego. Kto zatem ma rację?
Bliżej prawdy jest chyba Techopedia, choć nawet jej definicja nie oddaje w pełni złożoności problematyki Dark Data. „Mroczne dane” można bowiem opisać w potrójny sposób. Po pierwsze – są to dane, z których istnienia przedsiębiorstwo w ogóle nie zdaje sobie sprawy, więc ani ich nie gromadzi, ani nie przetwarza (tu definicja Gartnera bierze w łeb). Po drugie – mogą to być dane, o których przedsiębiorstwo wie i je gromadzi, lecz nie ma pojęcia, jak je przetworzyć. Po trzecie – to również dane, o których istnieniu przedsiębiorstwo wie i nawet dysponuje narzędziami do ich analizy, lecz jej nie podejmuje, ponieważ uznaje ją za zbyt kosztowną lub obawia się, że jej rezultaty będą niewspółmierne z nakładem pracy, jaki trzeba było w nią włożyć. Dopiero połączenie każdej z tych skrawkowych definicji daje jakąś szerszą perspektywę tego, czym jest „Dark Data”. Żeby zatem zamknąć tę kwestię przyjmijmy perspektywę biznesową, wedle której „Dark Data” to dane, które (z różnych powodów) nie są monetyzowane przez organizacje.
Talk Dirty to me
O ile Dark Data można by określić jako „zmarnowany potencjał”, o tyle już drugiego złego brata bliźniaka, czyli Dirty Data, wypadałoby opisać raczej jako internetowego trolla Big Data Marketingu.
Z Dark Data wciąż można wyłowić jakieś sensy, wzorce i zależności. Mroczne dane można jeszcze jakoś rozświetlić, jeśli dysponuje się odpowiednimi narzędziami do analityki. W przypadku Dirty Data zaś mamy do czynienia z totalnym cyfrowym bełkotem. Brudne dane można jedynie wyszorować czy wyprać, tzn. usunąć je z tkaniny, jaką jest Big Data. Są jak brzydkie plamy po winie na białej koszuli.
Gdzie można się na nie natknąć? Najciemniej pod latarnią. Media społecznościowe – głównie Facebook – to największe generatory i kopalnie danych o internautach. Nic dziwnego, że wiele firm ma klapki na oczach i koncentruje się na analizie danych wyłącznie stąd, ponieważ są one najłatwiej dostępne. Bazując tylko na takich informacjach (lajki, komcie, szery, tagi, hashtagi zgromadzone na fanpejdżach itp.) przedsiębiorstwo układa swoją strategię marketingową. A to poważny błąd. Ponieważ lwia część danych z portali społecznościowych jest po prostu „brudna”. To Dirty Data, dane zanieczyszczone. Według analiz Networked Insights blisko 10 proc. takich danych jest do wyrzucenia, ponieważ… wcale nie pochodzą od realnych użytkowników. Są zasługą sztucznych botów (53%), skutkiem ruchu generowanego przez spamerów, celebrytów lub osoby opłacane przez konkurencyjne firmy (23%) bądź przez nieaktywne konta (11%). W wyniku tego zatruwania danych wytwarza się „Dirty Data”. „Brudne dane” wprowadzają w błąd przede wszystkim marketerów, ponieważ dostarczają bezużytecznej pseudo-wiedzy.
Już teraz od 50 do nawet 80 proc. czasu, jaki badacze danych spędzają w firmach nad analizą Big Data, pochłania właśnie oczyszczanie danych z „Dirty Data”. W żargonie analitycznym określa się to jako „janitor work”, czyli pracę „dozorcy” czy „woźnego” danych, choć pasowałoby tu raczej określenie: „dirty job”. Jest co robić, ponieważ według DOMO tylko w ciągu minuty użytkownicy samego Facebooka tworzą 2 460 000 nowych treści. Dlatego praca „janitorsów” przypomina zmywanie podłogi na korytarzu, na kilka sekund przed dzwonkiem na długą przerwę w szkole.
Niepokojące jest to, że udział „brudnych danych” w ogólnym strumieniu Big Data w Sieci w porównaniu z ubiegłym rokiem wzrósł aż o 658 proc. Niektóre marki przyznają wprost, że nawet 90 proc. postów na ich fanpejdżach w mediach społecznościowych spokojnie mogą zaklasyfikować jako wiadomości-śmieci. Dirty Data zanieczyszczają wartościowe Big Data, które stanowią dla marketerów najważniejsze źródło informacji o fanach czy klientach, ponieważ dotyczą ich intencji, gustów czy zachowań. Oznacza to, że marki, które w swojej strategii komunikacyjnej bazują wyłącznie na Big Data z mediów społecznościowych i w żaden sposób nie dywersyfikują źródeł danych, muszą liczyć się z możliwością napotkania zwodniczego „Dirty Data”, a co za tym idzie – wypaczenia profilu fana (lub klienta). Nie będą w stanie zdiagnozować: które dane są tymi przydatnymi? Tak samo jak załoga Gwiazdy Śmierci nie mogła się rozeznać: co jest prawdą, a co fałszem wytwarzanym przez rebeliancki strumień danych?
Żeby nie brudzić rączek
Z uwagi na lawinowo generowaną ilość Big Data w Galaktyce Internetu i w social media, analiza takich ilości danych przekracza zdolności nie tylko zwykłego człowieka, ale i tradycyjnych systemów informatycznych. Jest jak niekończąca się pustynia na Tatooine.
Zamiast tracić czas i siłować się z „brudnymi” oraz „mrocznymi” danymi na własną rękę, lepiej zostawić sprawę fachowcom, badaczom danych, którzy na co dzień stykają się ze strumieniem Dirty & Dart Data, ale w nim nie toną. Na powierzchni utrzymują ich specjalistyczne narzędzia analityczne, jak np. silnik behawioralny, który analizuje anonimowe dane o użytkownikach wielopłaszczyznowo i z wielu źródeł. Polscy marketingowcy mają pod ręką choćby behavioralengine.com, silnik posiadający wbudowanego Antybota, pozwalającego z łatwością oddzielić ziarno od plew, czyli „Dirty Data” od „Big Data”. Gromadzi anonimowe dane o zachowaniach i preferencjach praktycznie każdego polskiego internauty, monitorując ponad pół miliona witryn www. Dziennie przetwarza ponad 5 TB danych. Składa się na niego ponad 70 mln profili użytkowników, podzielonych na ponad 100 segmentów i 5 000 atrybutów. Przede wszystkim jednak: konwertuje Dirty Data do Big Data, dzięki czemu marki mają możliwość faktycznego rozeznania się co do profilu swojego fana lub klienta. Bez ryzyka, że otrzymane profile cyfrowe będą skażone „brudem” czy „mrokiem”. Te oczyszczone i wiarygodne dane wykorzystywane są później choćby w spersonalizowanej reklamie internetowej, ale nie tylko tam. Korzysta z nich również sektor finansowy: branża bankowa i ubezpieczeniowa, a także inne organizacje, które decydują się zintegrować swój system CRM z tą platformą DMP (Data Management Platform).
Gdyby badacze danych z Gwiazdy Śmierci posiadali taki silnik – Imperium byłoby potęgą nie do ruszenia. A tak okazało się tylko kolosem na glinianych nogach.
Światło, mydło i powidło
W Cloud Technologies wierzymy, że sukces każdej organizacji zależy od tego, jak obchodzi się ona z danymi: Big Data, Dark Data, Dirty Data. Wierzymy, że zlekceważenie analityki internetowej i sprowadzenie jej do poziomu jakiegoś przejściowego trendu czy geekowskiej fanaberii, odbija się organizacjom biznesową czkawką. Wierzymy, że dane to nowa waluta epoki cyfrowej, która z biegiem lat będzie się umacniać. I mamy na to twarde dowody. Według badań Gartnera wydatki na analitykę danych rosną w tempie dwucyfrowym. Do 2017 roku 30 proc. danych, jakimi będą dysponowały przedsiębiorstwa, będzie pochodziło z hurtowni Big Data. IDC podaje, że już teraz 70 proc. dużych firm posiłkuje się danymi o użytkownikach gromadzonymi i przetwarzanymi przez zewnętrzne platformy Big Data. Do 2019 roku według IDC tym tropem pójdą już wszystkie duże organizacje. Coraz więcej firm będzie także monetyzować własne Big Data, podwajając inwestycje w analitykę Big Data oraz wyszukując unikatowych danych, które pozwolą im na uzyskanie biznesowej przewagi nad konkurencją.
Wierzymy i wiemy, że póki co nikt nie wynalazł skuteczniejszej strategii niż Big Data Marketing.
Wierzymy, że Dark Data w końcu ujrzy światło analityki. A Dirty Data – jej mydło.
Niech moc danych będzie z Wami.
::
Fot. Fotolia/ rami_hakala