Historia w pigułce: big data

Po raz pierwszy termin Big Data pada w mediach w 1999 roku. Od tamtego czasu okazuje się przedmiotem licznych kontrowersji i wdzięcznym podłożem do rozmaitego słowotwórstwa. Zestawia się go z takimi określeniami jak np. Big Brother, Big Dud, Big Money, Big Opportunity i jeszcze inne „bigi”. W mediach wzbudza sensację, choć niektórzy mówiąc o Big Data nie zawsze faktycznie o nich mówili.

W mediach Big Data była/jest trochę jak Christian Grey: ma 50 twarzy – albo i więcej. Prezentujemy te najsmakowitsze kąski (twarze), kontrastując dawne i obecne prognozy i komentarze o Big Data z obecnym stanem faktycznym. Zacznijmy od prehistorii tego terminu, która sięga lat 4.0 XX wieku.

Świat niekończących się półek w bibliotekach

Mimo trwającej pożogi wojennej już w latach 40. XX w. pojawiały się pierwsze prognozy dotyczące boomu informacyjnego, jaki miał nadejść w niedalekiej przyszłości. Podkreślano wówczas przede wszystkim problematyczności interpretowania gigantycznych ilości informacji, które ludzkość będzie produkowała w szalonym tempie. Dał temu wyraz Fremont Rider z Wesleyan University Librarian, publikując w 1944 roku artykuł „The Scholar and the Future of the Research Library”.

Rider szacował, że wskutek eksplozji danych biblioteki amerykańskich uniwersytetów będą podwajały swoje zbiory średnio co szesnaście lat. Obliczył, że jeśli takie tempo się utrzyma, to sama tylko biblioteka Uniwersytetu w Yale w 2040 roku składała się będzie z około 200 milionów tomów książek, które gdyby zostały upchnięte na jednej półce zajmowałyby około 6 tysięcy mil.

Rider myślał jeszcze w kategoriach fizycznych: wymiar, wielkość, waga, zajmowana przestrzeń – to było jego „big” z dzisiejszego Big Data. Do takiego myślenia zmuszały go w końcu same realia, ponieważ nie znano jeszcze pojęcia digitalizacji i nie sądzono, że kilometrowe półki w przyszłości zostaną zastąpione pojemnymi dyskami na serwerach i szybkimi łączami, a miliony książek, będzie można spokojnie przechowywać na nocnym stoliku, w postaci cyfrowej.

Dzisiaj zdecydowana większość naszej kultury jest już zdigitalizowana, a przyrost danych jest zdecydowanie większy niż ten prognozowany przez Ridera. Nie mógł on sobie zdawać sobie sprawy z informatycznej eksplozji, jak nastąpiła na przełomie wieków XX i XXI. Półki danych, o których pisał Rider, z powodzeniem mogłyby dzisiaj okrążyć Ziemię kilkakrotnie. Dzisiaj „big” w Big Data nie oznacza tylko tego, że danych jest naprawdę DUŻO, lecz również to, że są one naprawdę WAŻNE dla współczesnego świata, biznesu i najszerzej – życia.

Każdego dnia Google przetwarza już ponad 24 Petabajty danych. Twitter z roku na rok powiększa swoją objętość blisko trzykrotnie. W każdej sekundzie na YouTube 800 mln użytkowników dodaje godzinę nowych filmów. Na Facebooka co godzinę przesyłanych jest blisko 10 mln nowych fotografii, a każdego dnia jego użytkownicy dokonują blisko 3 miliardów rozmaitych aktywności: od komentarzy po udostępnienia i kliknięcia „lubię to”. Jak wynika z analiz prezesa Google tylko w ciągu 48 godzin produkujemy już w Sieci więcej danych, niż w okresie od początku powstania cywilizacji do 2003 roku. A większość z nich wygenerowaliśmy w ciągu ostatnich 3 lat.

Obwąchiwanie Big Data

Historia współczesnego Big Data zaczyna się jednak w sierpniu 1999, na łamach czasopisma „Communications of the ACM”, organie prasowym największej na świecie społeczności zrzeszającej teoretyków i praktyków informatyki oraz nowych technologii – Association for Computing Machinery.

Termin „Big Data” ma pięciu ojców. Są nimi Steve Bryson, David Kenwright, Michael Cox, David Ellsworth oraz Robert Haimes, którzy wspólnie popełnili artykuł „Visually exploring gigabyte data sets in real time”. To właśnie w tej publikacji po raz pierwszy pada wprost pojęcie „Big Data”, umieszczone jako tytuł jednego z podrozdziałów – „Big Data for Scientific Visualization”. Ojcowski kwintet wspólnie wyśpiewał taką oto arię: „Potężne komputery są błogosławieństwem w wielu dziedzinach badań.

Ale są też przekleństwem, ponieważ szybkie obliczenia wypluwają z siebie coraz większe ilości danych. Kiedyś to megabajty określały poziom wielkości i były uznawane za wielkie zbiory danych. Dzisiaj dla poszczególnych symulacji posiadamy zestawy danych już nawet w zakresie 300 GB. Jednak zrozumienie obliczeń tak wysokiego stopnia wymaga naprawdę nie lada wysiłku”. Dzisiaj te przerażające 300 GB danych sprzed ponad 15 lat wyglądają dość komicznie.

To pestka w porównaniu ze skalą Big Data, z jaką analitycy internetowi mają do czynienia obecnie – to już blisko 5 ZB (Zettabajtów) surowych danych. To tak jak porównywać ziarnko piasku z całą pustynią, która w dodatku rośnie w zadziwiająco szybkim tempie – z roku na rok Big Data rozrasta się o 40%. Oracle podaje wymowne dane: do 2020 roku wygenerujemy w Sieci już ponad 45 Zettabajtów danych – to aż o 44 razy więcej niż w 2009 roku i dziewięciokrotnie więcej niż obecnie. IDC przelicza, że na jednego mieszkańca ziemi przypadnie tym samym ponad 5,2 GB danych, a 33% z nich będzie przedstawiało sobą dużą wartość, jeśli zostaną skrupulatnie otagowane i przeanalizowane przez badaczy danych. Prawdziwe wyzwania dopiero zatem przed nami. Przyszłość to Huge Data.

Nostradamus od silnika behawioralnego

Jedną z najbardziej trafnych prognoz dotyczących Big Data okazała się ta wystawiona przez Petera J. Denninga we wrześniu 1990 roku w artykule „Saving All the Bits”, opublikowanym w czasopiśmie „American Scientist”. Denning przewidział możliwość powstania silnika behawioralnego, który – za pomocą odpowiednich algorytmów – byłby w stanie przekonwertować surowe dane na Smart Data, czyli połączyć ślady, jakie użytkownicy pozostawili po sobie w Sieci w pewną spójną interpretacyjnie całość.

Denning najprawdopodobniej uznawał, że taki silnik behawioralny (to pojęcie nie pada u niego wprost) będzie fizyczną „maszyną”, jakimś super-komputerem, ponieważ o przetwarzaniu danych w chmurze obliczeniowej nikomu się jeszcze wówczas nie śniło:  „Dysponujemy możliwością, skonstruowania maszyny, która byłaby w stanie rozpoznać albo przewidzieć zachodzenie pewnych wzorców czy też zależności w ramach dostępnych danych. Te maszyny mogłyby być na tyle szybkie, by radzić sobie z wielkimi strumieniami danych w czasie rzeczywistym. Za ich pomocą moglibyśmy zredukować ryzyko utraty świeżo odkrytych zależności, które utonęłyby w głębinach olbrzymich ilości informacji. Te same maszyny mogłyby przekopywać się przez istniejące już bazy danych, doszukując się w nich zachodzenia zależności i kształtując klasy opisów dla istniejących już danych, które udało nam się wydobyć”.

Wypisz wymaluj opis dzisiejszego silnika behawioralnego. Nie jest on oczywiście żadną super-hiper-maszyną zajmującą cały salon w biurze, tylko ulokowanym w chmurze wirtualnym kombajnem danych, który zbiera i szlifuje dane oraz szuka zależności między nimi. Silnik behawioralny rejestruje ruch internauty w Sieci i potrafi wyciągnąć z niego wnioski. Efektem pracy tego silnika są profile behawioralne użytkowników, które składają się w coś na kształt internetowego portretu czy „cyfrowego charakteru” internauty, o którym już w 2011 roku pisała Elizabeth Charnoc, założycielka Cataphora: „Charakter cyfrowy to pewna idea, wedle której współcześnie już niemalże każdy z nas zostawia za sobą codziennie gigantyczny, cyfrowy ślad, odciskający się w Sieci”.

Silnik, depcząc po tych śladach, wie: czego poszukujemy, czym się interesujemy, co oglądamy, w co klikamy itd. Nie wie jednak nic o tożsamości tego, który te ślady zostawił. Zebrane przez niego wnioski pozwalają na dostosowanie wyświetlanych komunikatów do zachowań i gustów internauty. To dzięki niemu możliwa jest personalizacja Internetu oraz walka z irytującą reklamą masową.

Tiffany Shlain, współzałożycielka Międzynarodowej Akademii Sztuk i Nauk Cyfrowych (IADAS) oraz pomysłodawczyni Webby Awards, 2012: „Big Data pozwala nam widzieć wzorce, których wcześniej nie dostrzegaliśmy i toruje nam drogę do nowego patrzenia na świat, wydobywając na światło dzienne nowe współzależności i powiązania między elementami. Big Data jako taka może prowadzić do lepszego zrozumienia naszego zachowania”.

Vinton Gray Cerf, Google Chief Evangelist i „Ojciec Internetu” w 2012: „Z podekscytowaniem patrzę na ten całkiem nowy obszar prezentowania informacji konsumentowi, w kontekście zainicjowanym przez niego samego. Nie chcemy przecież konsumentów, którzy nie chcą naszych produktów. Chcemy tych, którzy będą zainteresowani naszymi produktami. To otwiera zupełnie nową przestrzeń do dialogu z konsumentami poszukującymi informacji w Sieci”.

Big Data – Big Brother

Pomimo wielu optymistycznych wypowiedzi Big Data często ubierano też w garnitur Wielkiego Brata z orwellowskiego „Roku 1984”. Uderzano w nutę strachu głosząc, że analityka internetowa to nic innego jak tylko utrata prywatności, kradzież danych, cyberprzestępstwo, perwersja, inwigilacja, dehumanizacja i w ogóle sama prostytucja, fermentacja i arystokracja. Strach logować się na poczcie, bo Wielki Brat Patrzy. Strach robić zakupy w e-sklepie, bo później już tylko bombardowanie reklamami produktów, które kupiliśmy raz w życiu. Taki stereotyp pokutował i pokutuje w Big Data do dziś.

Christian Burns McBeth, SungardAS, Big Data or Big Brother?, 2015: „Żyjemy w cyfrowym odpowiedniku Dzikiego Zachodu, w którym Big Data to nie tylko nowe możliwości, ale również granica otwarta na oścież na nieznane ryzyka i potencjalnie śmiertelne pułapki. Zawsze jednak możemy zamknąć oczy, skrzyżować palce i łudzić się, że „Wielki Brat” zostawi naszą prywatność w spokoju i niemożliwym okaże się złowienie nas do rozległego morza danych”.

Sylvia Kronstadt, The Economic Populist, 2014: „Niebawem Big Data będzie już nie tylko monitorowaniem naszego miejsca pracy i naszej produktywności. Zacznie śledzić każdy nasz gest, ruch, interakcję. Dlaczego? Ponieważ one także mogą przynosić [firmom] profity!”. Analitykom internetowym na takie dictum pozostaje często jedynie rozłożyć ręce. Na technofobię nie ma lekarstwa. Ci sami ludzie, którzy przestrzegają przed Big Data, przestrzegali kiedyś przed radiem, telewizją, bankomatami, kalkulatorami i komputerami jako diabelnymi wynalazkami, które sprowadzą na człowieka same nieszczęścia. Na szczęście dziś oraz częściej słychać głosy rozsądku, które zamiast teorii spiskowych o cyber-stalkingu wolą może mniej spektakularne, ale jednak – fakty. Big Data coraz częściej postrzega się w kategoriach „Big Sister”, starszej, opiekuńczej i troskliwej siostry.

Big Data = Big Opportunity

Wychodzimy z założenia, że taką się ma optykę na Big Data, jakim jest się człowiekiem. A zatem ludzie węszący wszędzie spiski, zagrożenia i podsłuchy – w takim samym świetle będą też widzieli Big Data. I nie da rady ich przekonać, że Big Data nie jest na usługach Światowego Rządu czy jest jakimś tajemnym paktem cyberprzestępców. Jest dokładnie odwrotnie. W Big Data widzimy Big Opportunity – wielką nadzieję i wielką szansę na usprawnienie naszego życia. I nie jesteśmy w tym odosobnieni.

Rick Smolan w książce „The Human Face of Big Data” (2012), która jest zarazem foto-albumem Big Data, dowiódł, że za ciągiem algorytmów i cookiesów kryje się ludzka twarz, zaś cyfrowość wyznacza ramy naszej epoki i wielowymiarowo zmienia nasze życie.

Jeffrey Needham, Disruptive Possibilities: How Big Data Changes Everything, 2013: „Big Data to rodzaj „super-obliczeniowości” [supercomputing], z której korzystają zarówno komercyjne przedsiębiorstwa jak i rządy. Dzięki niej możliwe staje się monitorowanie pandemii, przewidywanie miejsca następnego napadu na bank, optymalizowanie łańcuchów dostaw żywności, przewidywanie zachowań wyborców w dniu głosowania czy prognozowanie skali politycznych zamieszek, gdy te wybuchną”.

Yuki Noguchi, NPR, Following Digital Breadcrumbs To ‚Big Data’ Gold, 2011: „Big Data nie polega wyłącznie na połączeniu kropek pozwalających wykryć przestępstwo. Zdolność do przetworzenia tak wielkich ilości informacji w tak szybkim czasie sprawia, że stajemy przed możliwościami, jakich nigdy przedtem nie mieliśmy”.

W rzeczy samej – Big Data to coś więcej niż gra w „połącz kropki”. To wytrych do drzwi prowadzących do całkiem nowego świata. W USA z zaawansowanej analityki danych korzystają m.in. agenci FBI oraz CIA. W książce Big Data: Rewolucja, która zmieni nasze myślenie, pracę i życie, Viktor Mayer-Schönberger oraz Kenneth Cukier wspominają m.in. o Richmond w stanie Virginia, gdzie to właśnie Big Data pełni obecnie funkcję „nocnego stróża prawa”. Komputery na bieżąco sygnalizują funkcjonariuszom możliwe zagrożenia naruszenia prawa oraz dopasowują do nich potencjalnych podejrzanych.

Clive Humby, 2006: „Dane to nowa ropa naftowa”. Siedem lat później Virginia Rometty z IBM dodała tylko, że chodzi nie tyle o dane, co o „wielkie zbiory danych” (Big Data). Tak czy inaczej teza jest jasna: przedsiębiorcy potrzebują nie tylko samych danych – ale i analityków danych. Jeśli dane nie przejdą przez odpowiednią rafinerię, czyli warsztat analityka internetowego, to jako takie nie prezentują sobą większej wartości, ponieważ nic nie mówią. A raczej: nie wiadomo, co właściwie mówią. Dlatego kluczowa rola przypada Big Data Scientist. Z kolei David McCandless z TEDGlobal w 2010 roku precyzuje: „Dane to nowa ropa? Nie: dane to nowa gleba” (w oryginale gra słów: „Data is the new oil? No: Data is the new soil”).

Big Data – Big Doctor

Ze szczególną nadzieją należy spoglądać na wykorzystanie Big Data w medycynie. Już w 2008 roku w magazynie „Nature” analityka danych została określona jako „przyszłość leczenia”. Dzięki wymianie gigantycznych ilości danych możemy usprawniać kuracje nawet najbardziej skomplikowanych chorób, a także opracowywać nowe leki. W samych tylko Stanach Zjednoczonych w latach 2009-2011 szpitale podwoiły bazy danych swoich cyfrowych kartotekach medycznych (EHR, Electronic Health Records).

Travis B. Murdoch oraz Allan S. Detsky (doktorzy medycyny) w 2013 roku w Journal of the American Medical Association (JAMA) napisali: „Zastosowanie Big Data w służbie medycznej jest nieuniknione”. Podkreślali przede wszystkim bezprecedensową możliwość generowania nowej wiedzy medycznej przy wykorzystaniu wielkich zbiorów danych. Dzisiaj lekarze w USA używają algorytmów do monitorowania stanu zdrowia i dziennej rutyny pacjenta czy do zidentyfikowania w dostępnych bazach danych pacjentów o wysokim stopniu wystąpienia konkretnego ryzyka zdrowotnego, a następnie dopasowują najskuteczniejsza metodę leczenia do określonego przypadku, również posiłkując się danymi.

To właśnie dzięki Big Data coraz częściej mówimy dziś o medycynie spersonalizowanej. Podkreślała to mocno Lucila Ohno-Machado w zeszłym roku, pisząc o inicjatywie amerykańskiego Narodowego Instytutu Zdrowia (NIH), który zamierza przekuć Big Data zgromadzone o pacjentach na solidną wiedzę, która stałaby się podstawą nowej nauki: „informatyki biomedycznej”.  Big Data to paliwo rocket science. W miarę postępującej wiedzy o analityce wielkich zbiorów danych oraz odkrywania coraz to nowszych obszarów jej zastosowań, niektóre uczelnie wyższe już uruchomiły dedykowane biznesowi kierunki związane z Big Data. Mimo że ilość danych w Sieci rośnie, to rynek cierpi na deficyt specjalistów od analityki danych. McKinsey Global Institute szacuje, że do 2018 roku luka na rynku wyniesie ponad 1,5 mln stanowisk, a w 2020 roku deficyt w całym sektorze Big Data w USA może wynieść nawet 4 mln.

Big Data – Big Dumb / Bid Dud

Nie wszystkim w smak, że w Sieci jest już tyle danych. Wśród komentarzy z tych piętnastu lat znajdujemy również takie, których logika jest cokolwiek paradoksalna: fakt, że w Sieci jest za dużo danych sprawia, że ludzie stają się coraz głupsi. To tak, jak twierdzić, że liczba książek w czyimś domu jest wprost proporcjonalna do poziomu jego ignorancji.

David Koretz, HackerInterrupted, Big Data is Dumb, 2012: „Pozwólcie, że zacznę dosadnie: Big Data was rozczaruje. To tylko kolejna moda, która coraz bardziej zapycha nasze gardła. Okaże się następnym trendem, rozczarowującym tyleż fundusze inwestycyjne, jak i dyrektorów działów informatyki. Po 20 latach wpatrywania się w dane lekarze do dziś nie są w stanie rozstrzygnąć, czy masło czy też może margaryna są lepsze dla zdrowia. Big Data będzie tylko na tyle inteligentna, na ile inteligentne są nasze zbiory danych”.

Rozczarowująca jest raczej powyższa logika. Byłaby ona prawdziwa wówczas, gdyby w historii Ziemi nie pojawili się ludzie. Jednak tak się jakoś dziwnie złożyło, że żyjemy, a czasami nawet zdarza nam się myśleć. Alfabet jest jakimś zbiorem danych. A mimo to nie można uznać go za dzieło literackie. Jak to się zatem dzieje, że nie wszystko, co wykorzystuje litery alfabetu, jest takim dziełem? To proste – genialny pisarz rozpoznaje wcześniej nieodkryte połączenia między literami, wyrazami, zdaniami i buduje z danych alfabetu coś, czego wcześniej nikt nie odkrył. Dokładnie tak samo jest z pracą w- i na- Big Data. Dane stanowią tworzywo, w którym działa badacz danych, dane nie są jednak „inteligentne” same z siebie. Dlatego należałoby raczej powiedzieć: Big Data będzie na tyle inteligentna, na ile inteligentni i odkrywczy będą jej badacze.

James Glanz, New York Times, Is Big Data an economic Big Dud?, 2013: „Big Data okaże się dużym niewypałem [Big Dud]”.  Cóż, James, chyba chlapnąłeś. Ten „niewypał” stał się jednym z najważniejszych określeń naszych czasów i jednym z największych sukcesów technologicznych ostatniej dekady. Big Data nie jest ekonomiczną wydmuszką, lecz jak pisał w 2012 roku Frank J. Ohlhorst, to już przedsionek „Big Money”. CapGemini szacuje, że do 2018 roku wartość całego rynku Big Data osiągnie poziom 114 mld USD. Wikibon oblicza, że w zeszłym roku rynek danych osiągnął poziom 32,1 mld USD, ale do końca 2015 jego wartość ma wynieść już 48 mld USD.

::

Tak w pigułce wyglądało te 15 lat z Big Data. Gdybyśmy zmiksowali ze sobą wszystkie komentarze i prognozy, zarówno te czarne jak i te białe, to Big Data pewnie faktycznie wyszłoby „na szaro”. Prawie jak Christian Grey.

::

fot. © tashatuvangoZobacz portfolio; © Mathias RosenthalZobacz portfolio; © ZerborZobacz portfolio; © stockpicsZobacz portfolio

Brief.pl - jedno z najważniejszych polskich mediów z obszaru marketingu, biznesu i nowych technologii. Wydawca Brief.pl, organizator Rankingu 50 Kreatywnych Ludzi w Biznesie.

BRIEF