Zelf publicerende schrijvers herhalen 14 procent vaker een woord dan schrijvers die door uitgevers zijn gepubliceerd. Dit inzicht, en andere statistische verschillen, leverde het onderzoek op voor het systeem Gertrude (https://www.manuscripttest.com/). Gertrude is een machine learning systeem dat schrijvers de mogelijkheid biedt hun tekst te vergelijken met teksten die door professionele uitgevers zijn gepubliceerd.
Om woordherhaling te meten zoekt Gertrude bij ieder woord of het bij de honderd voorafgaande woorden al voorkwam. Hierdoor ontstaat een score waaruit blijkt dat zelf publicerende schrijvers vaker dan professionele schrijvers hetzelfde woord in kort bestek opnieuw gebruiken. Een voorbeeld is het woord ‘schrijvers’, dat in dit bericht tot nog toe zes keer voorkomt.
De mate van woordherhaling blijkt één van de significante verschillen die kunnen voorspellen of een tekst afkomstig is van een zelf publicerende schrijver dan wel van een professionele uitgeverij. Mogelijk selecteren professionele uitgeverijen de schrijvers die over een grotere woordenschat beschikken of die creatiever zijn in hun woordkeuze.
Gertrude is onlangs gelanceerd, en is bedoeld als hulp voor schrijvers van fictionele teksten, zoals verhalen en romans. Het systeem is getraind met duizenden teksten die op internet openbaar voorhanden zijn, om onderscheid te maken tussen teksten van zelf publicerende schrijvers en teksten die gepubliceerd zijn door professionele uitgeverijen. Het systeem classificeert teksten en biedt de mogelijkheid een analyserapport te kopen.