Methodische verantwoording
Dataset
Tijdens het maken van deze Data Story viel Rusland Oekraïne binnen, met een oorlog tot gevolg. De Tegenlichtredactie richtte haar aandacht begrijpelijkerwijs op deze ontwikkeling en de betekenis ervan voor de toekomst van Europa, handel, geopolitiek, energie en (des)informatievoorziening. Hierdoor is het maakproces van deze Data Story anders verlopen dan voorzien. Zo misten we van een aantal oudere afleveringen van Tegenlicht de transcripten nog maar door de oorlog is het niet meer gelukt deze transcripten beschikbaar te maken. Aangezien onduidelijk was hoe de situatie in Oekraïne zich zou ontwikkelen, hebben we besloten niet niet op te wachten. Een alternatief boden de ASR-transcripten: transcripten van een automatische spraakherkenning. Echter, de ASR herkent alleen Nederlands en dat betekent dat Engelse teksten niet of verkeerd herkend worden. Een term als ‘CO2’ bijvoorbeeld, wordt door spraakherkenning herkend als ‘seo twee’. Dat maakt het analyseren van ASR-transcripten problematisch. Omdat deze data daardoor incompleet en wezenlijk anders zijn dan de transcripten, hebben we ervoor gekozen ze niet te gebruiken.
Kalenderjaren
Hoewel televisieprogramma’s worden gemaakt per seizoen, hebben we bij de analyses gekozen voor analyses per kalenderjaar. We verwijzen regelmatig naar het Archief van de Toekomst, de website die naar aanleiding van 20 jaar Tegenlicht is ontwikkeld. Daarvoor zijn de afleveringen ook per jaar gegroepeerd. Om de relatie tussen de informatie in het AvdT en onze analyses begrijpelijker te maken, hebben we gekozen voor dezelfde benadering.
Thema’s
De redactie van Tegenlicht heeft elke aflevering aan een van twintig thema’s gekoppeld. Hoewel daar een thema Technologie bij zit, hebben we besloten specifieke analyses met betrekking tot dit thema weg te laten, omdat deze niet tot meer inzicht bleken te leiden. Dat heeft er onder andere mee te maken dat elke aflevering onder meerdere thema’s kan vallen en de thematische indeling daarmee niet voldoende representatief om betekenisvol te zijn voor analyses.
Specifieke termen
Om de aandacht voor technologie in Tegenlicht te meten, hebben we vooral gekeken naar het aantal keer dat bepaalde woorden voorkomen in de dataset. Daarbij is het de kunst om de meest relevante woorden te selecteren. Ontbreken er relevante woorden, dan vallen de resultaten met betrekking tot in dit geval ‘technologie’ lager uit en lijkt ‘technologie’ minder aanwezig dan het in de realiteit is. Daarnaast kan het voorkomen dat woorden meerdere betekenissen hebben en dan valt het resultaat juist hoger uit dan terecht zou zijn. De term ‘klimaat’ wordt bijvoorbeeld niet alleen gebruikt in termen van ‘milieu’ maar ook in termen van ‘economisch klimaat’; ‘AI’ komt ook voor in de kreet ‘ai ai ai’. De gebruikte software kan geen onderscheid maken tussen deze betekenissen en telt ze dus allebei. Vandaar dat we ervoor kozen op een beperkt aantal specifieke termen te analyseren.
Percentages
We hebben ervoor gekozen relatieve grafieken op te nemen, die percentages tonen in plaats van absolute aantallen. We kozen hiervoor omdat de lengte van individuele afleveringen alsmede het aantal afleveringen per jaar wisselt. Bij de percentages hebben we gekeken naar het aandeel van het betreffende aspect ten opzichte van het totaal aantal woorden. Een percentage van bijvoorbeeld 0.12 betekent bijvoorbeeld dat van elke 1000 woorden er 12 hits waren met de gebruikte zoekterm. We hebben de gegevens relatief gevisualiseerd. De percentages zijn laag en niet zo relevant, het gaat om het beeld en de algemene ontwikkelingen. Daarom noemen we de percentages niet expliciet maar ze zijn wel opgenomen in de interactieve visualisaties.