Противодействие лингвистической экспертизе



Стилометрия – это исследование стиля письма. Любой человек, в том числе вы, обладает персональным, уникальным, воспроизводимым и отслеживаемым стилем письма. Этот принцип известен давно и на нем построена отдельная отрасль форензики (криминалистики): судебная лингвистика. В сфере интернет-преступлений это называется “Writeprint” – дословно “отпечаток письма”. Метод writeprint нацелен на определение личности автора в интернете путем сравнения текста подозреваемого с известной коллекцией инвариантных (нормально написанных) текстов. Даже без сравнительных текстов эта криминалистическая техника может предоставить персональную информацию об авторе, такую как пол, возраст и личность.


 

Примеры

В практике уже накопилось достаточно кейсов, в которых представители власти использовали метод writeprint, чтобы поймать преступника и вынести обвинение:

  • Дело OxyMonster. У некого Валлериуса были аккаунты в Instagram и Twitter. Агенты сравнили стиль письма пользователя OxyMonster на нелегальном форуме Dream Market, когда тот занимал должность старшего модератора, со стилем письма Валлериуса на публичных аккаунтах. Обнаружилось много сходств в использовании слов и пунктуации, включая слово “cheers”, двойные восклицательные знаки, частое использование кавычек и посты на французском языке.
  • Дело Росса Ульбрихта. В книге “American Kingpin” повествуется о том, как агент DEA исследовал стиль письма DPR (Dread Pirate Roberts, также известен как Росс Ульбрихт, основатель теневого онлайн-рынка Silk Road). Ульбрихт часто использовал слово “epic” (“эпический”), что свидетельствовало о его относительно молодом возрасте. Он также использовал смайлики эмодзи в постах, хотя никогда не использовал дефис в качестве носа, записывая их как ":)", а не как старомодное ":-)". И все же единственным отличительным признаком Ульбрихта было то, что вместо того, чтобы писать "yes" или "yeah" на форумах сайта, Ульбрихт всегда печатал "yea".

 

На что обращают внимание при лингвистической экспертизе?

  • Лексические особенности: анализ выбора слов.
  • Синтаксические особенности: анализ стиля письма, структуры предложений, пунктуации и переносы.
  • Структурные особенности: анализ структуры и организации письма.
  • Специфичные для содержания слова: анализ контекстуально значимых слов, таких как аббревиатуры.
  • Идеосинкразические особенности: анализ грамматических ошибок. Это наиболее важный фактор, который необходимо учитывать, поскольку он обеспечивает относительно высокую точность идентификации автора.

 

Как усложнить лингвистический анализ

  • Сократите количество сравнительного текста, на который может опираться анализ.
  • Не используйте в чувствительной деятельности тот же стиль письма, что и в обычной деятельности. В частности, обратите пристальное внимание на использование общих фраз и пунктуацию.
  • Сократите или измените устойчивые выражения, которые регулярно используете.
  • Поймите, как придуманная личность влияет на стиль письма: она молодая или взрослая? Более или менее образована? Например, взрослые люди пишут более формально, составляют более длинные сообщения с несколькими предложениями, чаще ставят точки в конце сообщений.
  • Проанализируйте, как сленг и орфография может вас идентифицировать. В разных регионах люди говорят и пишут по-разному, учтите это. К примеру, в США люди пишут числа с запятыми между цифрами слева от начального числа и с точками между цифрами справа от начального числа. Это отличается от того, как пишут числа в остальных странах. США: 1,000.00$. Европа: 1.000,00€.
  • Можете изменить слова на синонимы. Пример: "огромный" → "большой".
  • Обратите внимание на использование эмодзи и эмотиконов. Русскоязычные пользователи используют ")" вместо ":-)" или ":)" для выражения смайлика. Скандинавы используют "=)" вместо ":-)" или ":)" для выражения смайлика. Молодые люди обычно не используют дефис в своих смайликах и просто используют ":)".
  • Продумайте структуру письменной речи. Используете ли вы два пробела после точки? Постоянно ли вы используете скобки в письме? Ставите ли все запятые?
  • Определите, какие символы вы используете в письме. Используете ли символы € или $ и ставите ли их до или после числа? Используете ли формат даты “дд-мм-гггг” или “мм-дд-гггг”? Пишете ли “08:00 pm” или “20:00” для обозначения времени?
  • НИКОГДА не используйте слова или фразы из жизни другой личности (даже если она не публична) в обычных целях, и наоборот.
  • Проверяйте орфографию и грамматику. Используйте встроенные функции проверки правописания. Можете также воспользоваться онлайн-сервисом проверки орфографии и грамматики.
  • Используйте поиск и замену. В конце опционально добавьте несколько ошибок в ваше сообщение. Сначала определите список слов, в которых часто не ошибаетесь. Не используйте автоисправление, так как оно может исправлять, когда это не имеет смысла. Вместо этого используйте поиск и замену и делайте это вручную для каждого слова. Не нужно заменять все, проверяйте каждое изменение.

Это существенно изменит письменную речь, поменяет восприятие людей и, самое главное, недоброжелателей.


 

Заключительные советы

  • Осознайте, что вам придется постоянно думать о том, что и как вы пишете, занимаясь чувствительной деятельностью.
  • Поймите, что изменение вашего стиля письма для таких целей может в конечном итоге изменить ваш базовый стиль письма, что, по иронии судьбы, сделает ваше письмо отслеживаемым в течение длительного времени.
  • Перечитайте себя хотя бы один раз после того, как закончите писать что-либо, чтобы убедиться, что не допустили ошибок в процессе работы. Доверяйте (себе), но все равно проверяйте.

 

Бонусные ссылки

  • Stylometric fingerprinting redux – про противодействие стилометрическому анализу.
  • Документация Whonix о стилометрии.
  • Статья на Википедии о лингвистической форензике, которая дает краткое изложение основ судебной лингвистики, не слишком информативно.
  • Статья про обнаружение схожести контента. Информативно, рекомендуем к чтению.
  • Статья на Википедии, кто такой и как поймали Унабомбера.
  • Статья, которая объясняет, как ваш стиль письма может быть использован для отслеживания вас, мы настоятельно рекомендуем прочитать эти слайды или посмотреть сопровождающую презентацию на YouTube.
  • Статья, похожая на предыдущую.
  • Здесь рассказывается о том, как распознать потенциальный обман через интернет и представлен чеклист, позволяющий определить, насколько человек заслуживает доверия.