Anti-tip van de Dag: de sarcasme-analysator

Een paar weken geleden las ik iets over een algoritme dat sarcasme in geschreven teksten zou kunnen herkennen. Razend interessant, want dat is zelfs iets dat mensen niet altijd kunnen (zie: elke onterechte ruzie op het internet). Als (semi-, ex-) computationeel linguist wil ik natuurlijk wel eens weten hoe zo’n algoritme dan in elkaar zit. Bij nader onderzoek blijkt de paper in kwestie al een jaar oud te zijn, maar dat mag in principe de pret niet drukken.

Wat wél de pret mag drukken zijn de voorbeelden die worden genoemd in het artikel. Deze voorbeeldzin wordt in het artikel aangemerkt als sarcastisch:

Horrible tripe of a novel, i Lost IQ points reading it

Dit systeem is eigenlijk wel zo makkelijk

Ben ik nou gek? Snap ik sarcasme niet? Bij sarcasme zeg je het tegenovergestelde van wat je bedoelt en tenzij de schrijver van deze zin eigenlijk heel positief is over het boek in kwestie, lijkt het me toch dat hij hier gewoon zeer direct zijn negatieve mening ventileert. En op basis van incorrecte voorbeelden kun je niet op geloofwaardige wijze een algoritme presenteren.

Mijn conclusie luidt dus als volgt: ja hoor, echt een fantástische uitvinding, die sarcasme-analysator. En als menselijke lezer kunt u dus snappen dat ik dat bedoel als Anti-tip van de Dag.

Ik voel me net een kopje koffie

Automatische vertalingen zijn niet zo best. Dat is ook logisch, want meestal vertalen ze elk woord letterlijk en dat wordt natuurlijk niks, hooguit een bron van leuke Dunglish uitspraken zoals “I have sense in a little cup coffee.” Google Translate doet het al beter, die probeert woorden in ieder geval niet individueel te vertalen, maar enigszins naar de context (de rest van de zin) te kijken door groepjes woorden te vertalen. Zo komt daar bijvoorbeeld uit: “I feel like a cup of coffee.” Wel een beetje een dubbelzinnige zin, maar in ieder geval goed te begrijpen: “ik heb zin in” kun je redelijkerwijs vertalen als “I feel like”, en “een kopje koffie” is natuurlijk gewoon “a cup of coffee”.

De grote grap komt als je Google Translate deze zin weer laat terugvertalen naar het Nederlands.

“Ik voel me net een kopje koffie.”

Ja, het blijft lastig, dat automatisch vertalen. Mijn idee is dat je eigenlijk het beste niet van taal naar taal kunt vertalen, maar dat het beter zou werken om een soort van taalloze representatie van een zin te maken en die vervolgens weer te formuleren in een andere taal. In taalkundige termen zou je kunnen zeggen dat je de communicatieve intentie van een zin zou moeten achterhalen, dus de bedoeling die een spreker of schrijver heeft met die zin, om die intentie vervolgens in een andere taal weer tot uiting te brengen.

Maar goed, dat terzijde, weer even terug naar de grappige kant van het verhaal. Als een zin na één keer heen en terug vertalen soms niet zo goed uit de verf komt, kun je je voorstellen dat het na tientallen keren automatisch vertalen helemaal uit de hand loopt… Daarvoor hebben we nu Bad Translator.

Ik voerde Bad Translator een zin uit m’n proefschrift: “A communicative act is performed by the speaker in order to convey meaning and achieve a perlocutionary effect, as explained in the previous subsection.” Vierenvijftig vertalingen later, via o.a. IJslands, Afrikaans en Witrussisch, is dat verbasterd tot: “Communication and project management Outcomes: 2 perlokutyonari Effects.” Nice. Wel een stuk bondiger dan mijn zin. Ik denk dat ik mijn hele proefschrift er zo maar doorheen gooi.

Als laatste, ultieme test gaf ik Bad Translator de zin “I feel like a cup of coffee.”

Vijfentwintig automatische vertalingen later: “Do not like coffee.”

Ehm. Wat?

De taalkunde-sfinx

The Sphinx once challenged a particularly tasty-looking student of language to solve the riddle: “How is saying ‘My toe is turning blue,’ as a request to get off my toe, similar to slamming a door in someone’s face?” The poor student stammered that in both cases, when the agents are trying to communicate something, they have analogous intentions. “Yes indeed” countered the Sphinx, “but what are those intentions?” Hearing no reply, the monster promptly devoured the poor student and sat back smugly to wait for the next oral exam.

(Cohen & Perrault, Elements of a Plan-Based Theory of Speech Acts, 1979)

Ik weet niet of de meneren Cohen en Perrault high waren ten tijde van het schrijven van de desbetreffende paper (het is tenslotte wel een artikel uit de jaren ’70), maar ik heb in ieder geval nog nooit zo’n gekke openings-alinea gelezen in een wetenschappelijk schrijven. Lieve lezer, punten voor het goede antwoord, je wordt niet opgegeten voor een verkeerde gok en ik zal aan het eind van de middag het antwoord posten :)

Image by oberazzi / CC BY-NC-SA 2.0