Egy hírportál kvantitatív vizsgálata

1. A téma

Elemzésre rendelkezésünkre áll az [origo] hírportál tízévnyi híranyaga, körülbelül 100 millió szónyi szöveg. Az anyagot gépi elemzésnek vetettük alá, és több ezer személynevet azonosítottunk a szövegekben. A téma kvantitatív összefüggések feltárása ebben az adathalmazban.

2. A téma relevanciája

Ez a rendkívül részletes adatbázis számtalan közérdeklődésre számot tartó elemzési lehetőséget rejt magában. Közhelyszerű bölcsességek kvantitatív megerősítése vagy megcáfolása, vagy teljesen új kérdések felvetése is e lehetőségek között van. Néhány találomra kiválasztott vázlatos példa kutatási irányokra:

  • Kifejezések gyakoriságának időbeli változása.
  • Egy politikai- vagy médiaszereplő felemelkedése és hanyatlása számokban kifejezve
  • Divatok, trendek, tendenciák automatikus azonosítása.
  • Annak a személyek közti kapcsolati hálózatnak a vizsgálata, amelyet a cikkekben való együtt-szereplés hoz létre.
  • Hogyan állapíthatjuk meg politikai szereplők politikai hovatartozását automatikus eszközökkel? Lásd: http://www.kitchenbudapest.hu/hu/projects/celebgraph
  • Elkülöníthetünk-e csoportokat a magyar médiában és kultúrában, a foglalkozásból értelemszerűen adódó elkülönüléseken túl?

3. A hallgató feladatának meghatározása

A pontos témát konzultáción határozzuk meg, a hallgató érdeklődését és informatikai előképzettségét figyelembe véve. A hallgató feladata ezután:

  • az adathalmaz szabályszerűségeit feltárni hivatott informatikai eszközök megismerése
  • hipotézisek felállítása
  • azok ellenőrzése
  • beszámoló írása

4. Előzetes elvárások

A feladat kifejezetten azoknak a hallgatóknak ajánlott, akik valamilyen programozási gyakorlattal rendelkeznek, esetleg jártasak statisztikai programcsomagok használatában.