Hoe een computer sarcastische tweets kan herkennen
Florian Kunneman leerde de computer hoe die emoties kan herkennen in tweets van 140 tekens. Vandaag promoveert de taaltechnoloog daarop.
Hoe vaak zie je het niet op Twitter? Mensen die aankondigen dat ze naar de Oscarwinnende film Moonlight gaan of naar het concert van Tokio Hotel. Opmerkelijk: als het tegenvalt, melden ze zich meestal niet meer.
Onderzoeker Florian Kunneman had eigenlijk op iets anders gerekend. Hij dacht: ‘Twitter is een soort Wall of Shame.’ Vergelijk het met een site waar nieuwe films of games worden beoordeeld. Hij wilde de computer laten aantonen bij welke evenementen twitteraars het vaakst publiekelijk achteraf hun ongenoegen delen. Daarvoor leerde hij zijn computer eerst zoeken. Hoe kon het apparaat heel Twitter doorspitten naar gebeurtenissen en hoe kon het ding vervolgens emoties in twitterberichten herkennen? Toen hij dat voor elkaar had, kwamen dus de conclusies. ‘De teleurstelling van twitteraars bleek niet zozeer betrekking te hebben op de kwaliteit van het product, maar vooral op andere dingen als een concert dat werd afgelast of belabberd geluid.’ Dingen dus die buiten de prestatie van de ‘performer’ omgingen. Bij voetbal geldt: als de scheidsrechter een beslissing neemt, reageren fans van de gedupeerde partij teleurgesteld op Twitter. ‘Teleurgesteld’ is dan te mild gesteld: meestal zijn ze woest.
Lekker weer
Taaltechnoloog Kunneman dacht dus dat de uitkomst anders zou zijn (‘blijkbaar gebruiken we Twitter vooral als we positief zijn over een evenement, anders nemen we niet meer de moeite de afloop te vermelden’), desalniettemin noemt hij zijn onderzoek geslaagd. De uitdaging was de computer leren emoties te lezen in 140 twittertekens. ‘Ik heb bijvoorbeeld een systeem gemaakt dat sarcasme herkent’, vertelt hij. Eenvoudig was dat niet. Met een tweet als ‘het is wel lekker weer zeg’ kan de een bedoelen dat het écht lekker is buiten, waar de ander bedoelt dat het vreselijk zeikweer is. Probeer dan maar eens sarcasme te ontdekken. Een aantal indicatoren kon de onderzoeker wel aanwijzen voor sarcastische tweets: het gebruik van termen als ‘lekker dan’, ‘nou’, ‘gezellig hoor’ en het gebruik van hoofdletters in een bericht.
‘De computer hoeft niet te eten en te slapen’
Op den duur lukte het de computer zelf emoties te herkennen. ‘Vergelijk het met een kind waar je steeds tegen zegt ‘dat is brutaal’. Door de herhaling leert het kind wat wel en niet brutaal is.’
#zinin
Kunneman keek ook naar hashtags als indicatoren voor emoties. Met #omg kon hij helemaal niets. Oh my god kan zowel van toepassing zijn op blijheid na een tentamenuitslag (8 voor een tentamen!) als voor schaamte (moeder heeft gekke schoenen aan). De hashtag #fml (fuck my life) en #zinin werkten eenduidiger.
Vandaag promoveert Kunneman op zijn onderzoek. Als postdoc werkt hij inmiddels onder meer voor het Rijksinstituut voor Volksgezondheid en Milieu. Hij brengt in kaart of mensen op Twitter positief of negatief zijn over vaccinaties. ‘De essentie van mijn onderzoek is dat de computer veel meer data kan analyseren dan een mens. Hij hoeft niet te eten of te slapen, zoekt door tot je hem uitzet. En je kunt de computer trainen dat hij bij het zien van bepaalde patronen alarm slaat.’