Медиановости
/ Версии, Интернет

2 октября 2015 10:55

Английские ученые научились вычислять доходы пользователей Twitter

 
Группа психологов и специалистов по информационным технологиям из нескольких американских и английских университетов совместно с Microsoft Research научилась предсказывать годовой доход пользователей микроблоков Twitter в Великобритании по темам твитов, выражаемым в них эмоциям и наиболее часто употребляемым словам.
 
Как сообщает N+1 со ссылкой на журнал PLoS ONE, для этого ученые разработали специальный алгоритм обработки естественной письменной речи, при помощи которого «просеяли» базу данных из более чем 10 млн твитов.
 
В Великобритании все существующие виды работ делятся на 9 классов, организованных в иерархическую систему в зависимости от содержания той или иной трудовой деятельности и необходимых для ее выполнения навыков. Ученые отобрали 5191 Twitter-аккаунт, владельцы которых представляли все 9 существующих классов трудовой занятости. Для оценки среднегодового дохода представителей разных типов профессий использовались данные «Ежегодного исследования затрат рабочего времени и доходов» за 2013 год, проводимого Национальной статистической службой Великобритании. Таким образом, ученые сформировали экспериментальную базу из более чем 10 млн твитов.
 
На втором этапе исследования все твиты были «просеяны» через специальный алгоритм, отбирающий специфические слова, которые наиболее часто используют представители каждого из 9 классов профессий. Так как в подавляющем большинстве случаев люди пользуются примерно одинаковыми тезаурусами наиболее употребительных слов, алгоритм должен был выделить отдельные группировки слов. Потом они проверялись учеными вручную, и на их основе формировались особые категории кодов. Например, темы твитов могли подразделяться на категории «политика», «фондовые рынки», «спорт» и другие. Эмоционально окрашенные слова и выражения на «страх», «гнев», «возмущения», «ругань», «обращения к богу» и так далее.
 
Выяснилось, что чем выше годовой доход владельца микроблога, тем он чаще выражает в твитах эмоции страха и гнева. А оптимистичные и жизнеутверждающие твиты, наоборот, характерны для людей с низкими доходами. Те, кто зарабатывал мало, были также склонны к перебранкам в Twitter с другими пользователями, а также открытому выражению своей религиозности (в большинстве случаев — христианской), в то время как более богатые люди чаще всего обсуждали политику, дела корпораций и некоммерческих общественных организаций.
 
Общий вывод ученых таков — представители классов с высоким доходом склонны использовать Twitter для быстрого распространения новостей и обсуждения деловых тем и вопросов, тогда как представители классов с низким доходом больше пользуются Twitter для обыденного общения и перебранок друг с другом, передает «Интерфакс».
 
Эксперты отметили, что на основании полученных данных можно решать и обратную задачу — предсказывать доход пользователей Twitter на основании тем сообщений и ключевых слов, однако, чтобы эти прогнозы были максимально точными и корректными, требуются дополнительные исследования.