Ponieważ do poprzedniego wpisu (Mierzenie się z wizerunkiem marki w sieci.) pojawiła się ciekawa opinia Anny Miotk odpowiem w tym miejscu (mój komentarz do komentarza nie mieści się w zadanym polu!)
Przede wszystkim dziękuję Anno za ciekawy i merytoryczny komentarz.
Prawdopodobnie problem i tak sprowadza się do tego, co zwykle czyli kwestii: „co nas interesuje / co tak naprawdę chcemy wiedzieć?”
Intuicja podpowiada mi, że to właśnie wyniki badań jakościowych (tzw. „wirtualna etnografia”) mogą okazać się kluczowe dla rozwoju narzędzi służących do monitoringu internetu...
Mówiąc o „algorytmach” warto od razu wyraźnie rozgraniczyć rozumienie tego pojęcia na:
1. Sekwencje kolejnych, działań, czynności, które prowadzić mają do odtworzenia opinii o marce w sieci.
2. Ciągi działań wykonywanych przy pomocy oprogramowania służącego do gromadzenia i analizy danych (crawlery, boty itp.).
Mój wpis dotyczy tego pierwszego - poszukiwania ogólnego modelu działań (np. wyboru i kolejności stosowania procedur badawczych). To drugie oczywiście może (i powinno) zawierać się w pierwszym – np. wykorzystanie botów na którymś etapie (lub etapach) prac. Stąd zakładam, że w modelu optymalnym konieczne byłoby jednoczesne korzystanie z kilku metod badawczych (i odpowiednio – kilku technik dla każdej wybranej metody) jak i z analizy wielu źródeł (podstawowymi mogłyby być np. opinie gromadzone w „światach” on-line i off-line – pozostaje kwestia dla standardu ich gromadzenia i porównywania).
Ograniczenia prawne należy rzecz jasna respektować, nie widzę jednak problemu z wykorzystywaniem danych za zgodą użytkownika. Google np. emituje reklamy kontekstowe AdWords w zupełnie „prywatnych” skrzynkach pocztowych analizując treść wysyłanych i odbieranych maili. Użytkownicy nie rezygnują przez to z Gmaila – widocznie suma korzyści związanych z korzystaniem z tej usługi przewyższa sumę „kosztów” związanych z ciągłą „infiltracją”. W temacie technologii jestem zupełnym laikiem ale mam wrażenie, że rozwiązania w rodzaju „open graph” itp. dają podobne możliwości (użytkownik każdego serwisu niezależnie od jego charakteru i przeznaczenia „oddaje prywatność” – przynajmniej jakąś jej część w zamian za korzystanie z jego dobrodziejstw).
Co do automatycznej analizy treści jestem niepoprawnym optymistą. Rynek amerykański jest oczywiście bardziej zaawansowany (wynika to głównie z jego konkurencyjności) ale z tego, co zdążyłem się zorientować boryka się z tymi sami problemami. Złożoność języka polskiego w stosunku do angielskiego wydaje się kwestią drugorzędną. Zakładam, że wciąż doskonalone są modele logicznych podstaw języków naturalnych. Semantyka, semiotyka, syntaktyka czy pragmatyka być może także w końcu się do czegoś przysłużą i liczę na to, że jeszcze za mojego żywota korzystać będę z „semantic web” i w pełni sprawnej „sztucznej inteligencji”. Pomijając minusy związane z orwellowskim obliczem takich rozwiązań (od rozpoznania sensu wypowiedzi i przypisania jej intencji niedaleko do „Raportu mniejszości”... ) same w sobie będą pewnie niezwykle użyteczne w dziedzinie PR / reklama / badania rynku:-)
To teoretycznie, (dla badania internetu) logiczny krok pierwszy: „złamanie kodu” przy odczytywaniu SENSU z dokumentów tekstowych (HTML). Odkrycia naukowe podążają jednak różnymi niespodziewanymi drogami i być może prędzej uda się komuś stworzyć model struktur wiążących KAŻDY dowolny język (rozumiem przez to SENSOWNE ciągi znaków – także obrazów, dźwięków, ruchów, gestów, zapachów itd.) z rzeczywistością...
Automatyczna analiza „wydźwięku”, „sentymentu” czy „emocji” komentarzy byłaby pewnie dla takiego rozwiązania równie trudna jak... operacja dodawania do dziesięciu dla G. Kasparowa? :-)
Na takie rozwiązanie pewnie przyjdzie nam jeszcze chwilę poczekać (choć być może w Chinach już ono funkcjonuje??? Kto wie? :-)) więc spokojnie możemy poświęcić czas na doskonalenie własnych metod.
Bardzo chętnie zapoznałbym się z wynikami Twoich badań i pełną treścią dysertacji. Może się mylę, ale wydaje mi się, że trochę brakuje LOKALNEJ i INTERDYSCYPLINARNEJ (badacze, PR-owcy, agencje interaktywne, marketerzy itd.) dyskusji na temat STANDARDU monitoringu wizerunku marki w sieci. Powstają i powstawać będą przeróżne konkurencyjne rozwiązania, ale sądzę, że w interesie wszystkich stron będzie korzystanie choćby z tego samego JĘZYKA i aparatury pojęciowej.
Mam wrażenie, że obecne dyskusje toczone są albo w hermetycznych środowiskach (lub w środowiskowych „katakumbach”...) albo są zbyt rozproszone by cokolwiek mogło z nich wynikać.
Pozdrawiam serdecznie
MS
Tak na marginesie: mam nadzieję, że się mylę!:-)
Ten utwór jest dostępny na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
"Tak na marginesie: mam nadzieję, że się mylę!:-)"
OdpowiedzUsuńJa też :) Dopóki rozważamy zastosowania w marketingu, nie jest to jeszcze przerażające. Obawiam się jednak, że zanim skorzysta z tego reklama, znajdą się 'inni', którzy będą chcieli posłużyć się semantic web. Ale to tak na marginesie ;)
Marku
OdpowiedzUsuńdziękuję za tak długą i wyczerpującą odpowiedź :-) Tym razem mój komentarz będzie nieco krótszy od poprzedniego.
Fajnie, że uściśliłeś, że masz na myśli przede wszystkim samo projektowanie procesu badawczego (który przy badaniu social media nie różni się jakoś szczególnie od tego, co do tej pory wiadomo w naukach społecznych). Kwestie, z którego oprogramowania skorzystamy, jakie są jego mocne strony i ograniczenia będzie pewnie ważna przy wyborze analizy treści/danych jako metody.
Co do automatów - ja tutaj podchodzę bardzo ostrożnie, z tego, co wiem, nie da się zbudować uniwersalnego automatu, który będzie pasował do każdego zapytania. Innymi słowy - słowa, które będą pozytywne przy jednej marce, przy innej mogą mieć już znaczenie neutralne. Do tego "komputery nie rozumieją ironii", jak mawia amerykańska ekspert pomiaru, Katie D. Paine. Ona podała też ciekawy przykład, jak to komputer zakwalifikował post z Twittera mówiący o tym, że ktoś nie dostał wizy na wyjazd na igrzyska olimpijskie, jako wpis o sponsorze igrzysk, firmie Visa ;)
Co do rozprawy - ona dotyczyła głównie pomiaru efektów działań PR, natomiast dynamiczny rozwój social media i metod badawczych z nimi związanych był przeze mnie sygnalizowany jedynie w kierunkach dalszego rozwoju. Koncentrowałam się głównie na metodach i technikach pomiaru PR oraz porównaniu stanu rzeczy pomiędzy bardziej zaawansowanymi rynkami i Polską. W każdym razie mam jeden egzemplarz do wypożyczania. Jeśli chodzi o same badania, to raport z wynikami jest na dole tej strony, w pdf do pobrania: http://annamiotk.pl/publikacje/
Zgoda co do dyskusji na temat standardu - na razie jej brak. A przydałaby się - chociażby dlatego, że niektóre firmy namiętnie stosują angielskie słowa tam, gdzie istnieją już polskie i robi nam się kolejne bullshit bingo ;-)
Ten komentarz został usunięty przez autora.
OdpowiedzUsuńRomek, zakładając, że technologie z których korzysta świat "cywilny" to z reguły lekko przestarzałe i sprawdzone technologie wojska – jedno jest pewne: JACYŚ ONI już to mają! :-)
OdpowiedzUsuńAnno,
OdpowiedzUsuńOgólne prawo dla komentarzy zamieszczanych w internecie brzmi: „każdy kolejny musi być coraz krótszy”:-)
Ponieważ czuję się głupio (i głupi) poruszając po terenie nowym i obcym zacytuję „Encyklopedię głupoty” Matthijsa Van Boxsela (ten zaś cytuje Josiaha Roycea i Lewisa Carolla...): „Chcąc sporządzić dokładną mapę świata, powinniśmy na tej mapie nanieść i samą mapę, która z kolei powinna zawierać mapę mapy i tak w nieskończoność”.
Badanie internetu przypomina mi takie zadanie.
Głupie ale jakże twórcze! :-)
A zupełnie poważnie – to co określiłaś jako „projektowanie procesu badawczego” mnie wciąż nie wydaje się taką oczywistością. Może już na tym etapie warto dyskutować o standardzie? Właśnie po to by uniknąć późniejszego strategic bulshit bingo:-)
Stwierdzenie "komputery nie rozumieją ironii" traktuję wyłącznie jako żart. Równie dobrze, 50 lat temtu możnaby mówić, że „nie rozumieją komend głosowych”. Początkowo przecież nawet liczyć wystarczająco szybko (tak jak sobie tego życzono) nie potrafiły. Co jednak ma z tego wynikać poza tym, że dziś jeszcze nie rozumieją? Przyjmując takie założenie same komputery pewnie nigdy by w ogóle nie powstały. Pani ekspert z USA podała po prostu przykłady niedoskonałości znanych jej i dostępnych rozwiązań. Nauczenie komputerów poczucia humoru czy „łapania dwuznacznych uwag” jest bardziej kwestią czasu i kreatywności naukowców oraz twórców oprogramowania niż technologicznych możliwości. To oczywiście szkoła otwocka a nie falenicka ale stawałbym po stronie optymistów:-)
Raport ściągnąłem – dziękuję za link.
Pozdrawiam serdecznie
ms
Tak na marginesie: z nauk społecznych największą sympatią darzę antropologię kulturową (jeśli to jeszcze nauka społeczna?) ale chyba wszystkie wciąż się borykają (co wynika z ich przedmiotu i natury) z wielością paradygmatów. Popularyzujący to pojęcie T. Kuhn łączył je z „rewolucją” i nie do końca przewidywalną zmianą, a tzw. „rewolucje naukowe” łączył z kolei ze zmianami języka koniecznego do naukowych uogólnień. Być może u progu takiej „rewolucji” stoją dziś nauki społeczne (i pokrewna im ekonomia)? Może przyczyną pośrednią takiego „trzęsienia ziemi” będzie umasowienie internetu i związane z tym zjawiska społeczne? Ciekawe jak mógłby wyglądać świat nauk społecznych po takim „kopernikańskim przewrocie”? :-)
Rozpoznawanie i mierzenie ironii oraz sarkazmu w internecie zostalo ostatnio zrewolucjonizowane dzieki Izraelskim naukowcom. Utworzony przez nich SASI - Semi-supervised Algorithm for Sarcasm Identification moze rozpoznac ironie w 77%. Pierwsza faza badan zostala oparta na komentarzach(66,000)klientow amerykanskiego Amazon'a . Pomiary wzgledem kategorii okazaly sie zgodne w 81% co wskazuje na postepujaca droge do sukcesu. Po wiecej informacji w temacie odsylam do artykulu "ICWSM – A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews"Oren Tsur, Dmitry Davidov, Ari Rappoport (2010) - ale to tylko tak na marginesie :)
OdpowiedzUsuńKatarzyna, dzięki za link do opracowania. Sarkazm? Temat równie trudny jak humor (chociaż to zależy od definicji). W przygotowaniu mechanizmu „uczenia się” ciekawa rzecz z klasyfikacją znaków przestankowych (w zbiorze HFW). Oryginalne (chyba?) potraktowanie zbioru treningowego. Ciekawe założenia hermeneutyki (np. zdefiniowanie sarkazmu i porównywanie znalezionego z wzorcem). Kwestia relacji „siły wydźwięku” do ocen z rankingów do przedyskutowania (podobnie „klasyczna” już chyba metoda... http://www.cs.cornell.edu/home/llee/papers/pang-lee-stars.pdf . Ciekawy dobór próby. Dużo „ręcznego” etykietowania ale niewielkie zbiory. Użyteczna analiza proporcji pozyt. / negat. komentarzy do ich treści i charakteru (zaskakująco dużo koment. pozyt. – inna „jakość” internautów???, bo chyba nie chodzi wyłącznie o grupy produktów?). Pięć iteracji dla „douczenia” systemu wystarcza?
OdpowiedzUsuńCiekawe tezy przy interpretacji znaków przestankowych, interpunkcji np. [...], [!], [?] albo kapitaliki jako predyktor. Ciekawe również relacje: popularność, oczekiwana prostota produktu, cena, a charakter ocen oraz próba wyjaśnienia motywacji („ratowanie”, „oświecanie” innych.
Model matemat. – regresje i wektory nośne, statystyczne uczenie się, indukcja i skończone zbiory obserwacji – teoria V. Vapnika.
Wyzwanie w tego rodzaju podejściach ciągle takie samo (moim zdaniem): wiązanie wypowiedzi z kontekstem i wartością logiczną (logika formalna, pragmatyka) + ograniczenia indukcji.
Abra kadabra:-)
Pytania z innej beczki:
- jak konstruować „ontologię” i wiązać z „aksjologią” (kontekst?) – np. w „ontologii” prawa stałe, zmienna „aksjologia”? Jedno i drugie ma prawo się zmieniać? Itp/
- ciekawe jak często pojawiają się neologizmy i w jakiej ilości, jak długo „żyją” i jak się adaptują?
Tak na marginesie: Romek – bad news:-)!