Analýza sentimentu

Nie, nejde o to, ktorý politik je sentimentálny v bežne chápanom zmysle slova. Ide tu o niečo trocha iné. V Hlase Parlamentu využívame analýzu sentimentu na určovanie polarity alebo nálady príspevkov našich politikov.

Analýza sentimentu vo všeobecnosti skúma a vyhodnocuje názory, pocity a emócie vyjadrené v textovej forme. Využíva pri tom metódy textminingu (analýza textu) a text člení podľa emočného obsahu do štyroch skupín:

  • pozitívny
  • negatívny
  • neutrálny
  • zmiešaný

Ako to prebieha? Zjednodušene povedané, algoritmus pri triedení textov pracuje s citovo zafarbenými slovami, porovnáva ich s ostatnými slovami použitými v texte. Dôležitým faktorom je frekvencia použitia expresívnych slov. Ak je ich frekvencia v texte vysoká, text je definovaný ako pozitívny alebo negatívny. Neutrálny text má nízku frekvenciu expresívnych slov. Následne algoritmus vráti skóre za jednotlivú skupinu v rozmedzí 0 až 1.

Analýza sentimentu je zložitý proces, ktorý využíva techniky machine learningu (strojového učenia - podoblasť umelej inteligencie) na spracovanie prirodzeného jazyka (NLP - Natural language processing). Keďže sa jedná o hodnotenie “strojom”, nie je 100%-ná. Pre spracovanie textu strojom je hlavným problémom nejednoznačnosť slov, čo je v slovenčine dosť bežné. Slovenský jazyk je bohatý na ohýbanie, synonymá a dosť často sa používajú aj ironické či dvojzmyselné slová, ktorých “náladu” stroj len ťažko vie správne vyhodnotiť.

Aj napriek tomu, podľa štúdií sami ľudia so sentimentom textu súhlasia až na 79%. Podľa výsledkov tejto štúdie sa dá lepšie orientovať v postojoch a tendenciách autorov skúmaných textov.

Čo sa týka analýzy sentimentu príspevkov politikov v rámci projektu Hlas Parlamentu, zobrazujeme dve rôzne metriky, kde obe sú dynamické a tým pádom meniace sa v čase. Na detaile poslanca zobrazujeme percentuálny podiel jednotlivých emočných skupín a na podstránke štatistika zobrazujeme hodnotu koeficientu sentimentu. Pri oboch metrikách zobrazujeme dáta za posledných 30 dní.

Koeficient sentimentu je hodnota od 0 po 100, kde platí, že čím je hodnota vyššia, tým je nálada príspevkov emočne silnejšia. Koeficient sa vypočítava z počtu príspevkov a priemernej hodnoty skóre za všetky príspevky.

Pre lepšiu ilustráciu, ak si zvolí používateľ pozitívny sentiment, tak algoritmus vypočíta podiel pozitívnych príspevkov politikov za posledných 30 dní a vynásobí ho priemerom pozitívneho skóre, kde toto skóre získame ako priemer všetkých pozitívnych hodnôt za všetky príspevky v 30-dňovom období.

Facebook Stránka

Hlas Parlamentu