Стилометрия – это исследование стиля письма. Любой человек, в том числе вы, обладает персональным, уникальным, воспроизводимым и отслеживаемым стилем письма. Этот принцип известен давно и на нем построена отдельная отрасль форензики (криминалистики): судебная лингвистика. В сфере интернет-преступлений это называется “Writeprint” – дословно “отпечаток письма”. Метод writeprint нацелен на определение личности автора в интернете путем сравнения текста подозреваемого с известной коллекцией инвариантных (нормально написанных) текстов. Даже без сравнительных текстов эта криминалистическая техника может предоставить персональную информацию об авторе, такую как пол, возраст и личность.
Примеры
В практике уже накопилось достаточно кейсов, в которых представители власти использовали метод writeprint, чтобы поймать преступника и вынести обвинение:
- Дело OxyMonster. У некого Валлериуса были аккаунты в Instagram и Twitter. Агенты сравнили стиль письма пользователя OxyMonster на нелегальном форуме Dream Market, когда тот занимал должность старшего модератора, со стилем письма Валлериуса на публичных аккаунтах. Обнаружилось много сходств в использовании слов и пунктуации, включая слово “cheers”, двойные восклицательные знаки, частое использование кавычек и посты на французском языке.
- Дело Росса Ульбрихта. В книге “American Kingpin” повествуется о том, как агент DEA исследовал стиль письма DPR (Dread Pirate Roberts, также известен как Росс Ульбрихт, основатель теневого онлайн-рынка Silk Road). Ульбрихт часто использовал слово “epic” (“эпический”), что свидетельствовало о его относительно молодом возрасте. Он также использовал смайлики эмодзи в постах, хотя никогда не использовал дефис в качестве носа, записывая их как ":)", а не как старомодное ":-)". И все же единственным отличительным признаком Ульбрихта было то, что вместо того, чтобы писать "yes" или "yeah" на форумах сайта, Ульбрихт всегда печатал "yea".
На что обращают внимание при лингвистической экспертизе?
- Лексические особенности: анализ выбора слов.
- Синтаксические особенности: анализ стиля письма, структуры предложений, пунктуации и переносы.
- Структурные особенности: анализ структуры и организации письма.
- Специфичные для содержания слова: анализ контекстуально значимых слов, таких как аббревиатуры.
- Идеосинкразические особенности: анализ грамматических ошибок. Это наиболее важный фактор, который необходимо учитывать, поскольку он обеспечивает относительно высокую точность идентификации автора.
Как усложнить лингвистический анализ
- Сократите количество сравнительного текста, на который может опираться анализ.
- Не используйте в чувствительной деятельности тот же стиль письма, что и в обычной деятельности. В частности, обратите пристальное внимание на использование общих фраз и пунктуацию.
- Сократите или измените устойчивые выражения, которые регулярно используете.
- Поймите, как придуманная личность влияет на стиль письма: она молодая или взрослая? Более или менее образована? Например, взрослые люди пишут более формально, составляют более длинные сообщения с несколькими предложениями, чаще ставят точки в конце сообщений.
- Проанализируйте, как сленг и орфография может вас идентифицировать. В разных регионах люди говорят и пишут по-разному, учтите это. К примеру, в США люди пишут числа с запятыми между цифрами слева от начального числа и с точками между цифрами справа от начального числа. Это отличается от того, как пишут числа в остальных странах. США: 1,000.00$. Европа: 1.000,00€.
- Можете изменить слова на синонимы. Пример: "огромный" → "большой".
- Обратите внимание на использование эмодзи и эмотиконов. Русскоязычные пользователи используют ")" вместо ":-)" или ":)" для выражения смайлика. Скандинавы используют "=)" вместо ":-)" или ":)" для выражения смайлика. Молодые люди обычно не используют дефис в своих смайликах и просто используют ":)".
- Продумайте структуру письменной речи. Используете ли вы два пробела после точки? Постоянно ли вы используете скобки в письме? Ставите ли все запятые?
- Определите, какие символы вы используете в письме. Используете ли символы € или $ и ставите ли их до или после числа? Используете ли формат даты “дд-мм-гггг” или “мм-дд-гггг”? Пишете ли “08:00 pm” или “20:00” для обозначения времени?
- НИКОГДА не используйте слова или фразы из жизни другой личности (даже если она не публична) в обычных целях, и наоборот.
- Проверяйте орфографию и грамматику. Используйте встроенные функции проверки правописания. Можете также воспользоваться онлайн-сервисом проверки орфографии и грамматики.
- Используйте поиск и замену. В конце опционально добавьте несколько ошибок в ваше сообщение. Сначала определите список слов, в которых часто не ошибаетесь. Не используйте автоисправление, так как оно может исправлять, когда это не имеет смысла. Вместо этого используйте поиск и замену и делайте это вручную для каждого слова. Не нужно заменять все, проверяйте каждое изменение.
Это существенно изменит письменную речь, поменяет восприятие людей и, самое главное, недоброжелателей.
Заключительные советы
- Осознайте, что вам придется постоянно думать о том, что и как вы пишете, занимаясь чувствительной деятельностью.
- Поймите, что изменение вашего стиля письма для таких целей может в конечном итоге изменить ваш базовый стиль письма, что, по иронии судьбы, сделает ваше письмо отслеживаемым в течение длительного времени.
- Перечитайте себя хотя бы один раз после того, как закончите писать что-либо, чтобы убедиться, что не допустили ошибок в процессе работы. Доверяйте (себе), но все равно проверяйте.
Бонусные ссылки
- Stylometric fingerprinting redux – про противодействие стилометрическому анализу.
- Документация Whonix о стилометрии.
- Статья на Википедии о лингвистической форензике, которая дает краткое изложение основ судебной лингвистики, не слишком информативно.
- Статья про обнаружение схожести контента. Информативно, рекомендуем к чтению.
- Статья на Википедии, кто такой и как поймали Унабомбера.
- Статья, которая объясняет, как ваш стиль письма может быть использован для отслеживания вас, мы настоятельно рекомендуем прочитать эти слайды или посмотреть сопровождающую презентацию на YouTube.
- Статья, похожая на предыдущую.
- Здесь рассказывается о том, как распознать потенциальный обман через интернет и представлен чеклист, позволяющий определить, насколько человек заслуживает доверия.