На 1 февраля 2023 года оригинальность более 80%
Могу проверить вам актуальную оригинальность работы перед покупкой, пишите в личку.
Оригинал документа в pdf, конвертация в Word автоматическая (в word могут быть недочеты, которые вы легко исправите самостоятельно)
Эта работа основана на использовании обработки естественного языка и методов машинного обучения для построения классификаторов, способных предсказать, поведения и тенденции к здоровому образу жизни пользователей социальной сети ВКонтакте.
В результате этой работы, несколько классификаторов машинного обучения обучены выполнять задачу классификации пользователей на основе результатов, которые они дали в опросе, связанным со здоровьем. Различные наборы признаков, полученные из данных, собранных в социальных сетях, в сочетании с различными классификаторами, оцениваются с помощью метрики ROC AUC, чтобы определить, какая комбинация наборов признаков и классификаторов способна выполнить эту задачу. Для выполнения этой задачи используется язык программирования: Python и его различные библиотеки.
Введение
Эта работа заключается в использовании комбинации обработки естественного языка и машинного обучения для прогнозирования того, склоняются ли люди к определенному образу жизни и поведению. Результатом этой работы является оценка работы этих классификаторов машинного обучения.
Тема мониторинга здоровье общества с помощью социальных сетей получает все большее и больше интереса в научном сообществе. В источнике [1] исследователи попытались использовать методы обработки естественного языка для определения отношения пользователей социальных сетей к курению кальянного табака (ККТ). Исследователи попытались выявить потребителей с неоднозначными или смешанными взглядами на ККТ. Выявление таких людей, которые ещё не определились по поводу их отношения к ККТ, позволяет здравоохранительным органам нацеливаться на таких них и направлять им информацию, которая может изменить их мнение о ККТ. Часто когда здравоохранительные органы рассылают информацию публике о вреде употребление табака, табачные компании рассылают, в ответ, информацию которая пытается опровергнуть научные доказательства которые указывают что курение табака это вредно. Один способ избежать контратаки табачных компаний это рассылать такую информацию только некоторым людям которых можно ещё убедить о вреде курения. Методы автоматической классификации таких пользователей может сильно увеличить эффективность трудов здравоохранительных органов с борьбой против курения.
В другом исследовании [2] был использован иной подход к использованию данных, собранных в социальных сетях, в качестве инструмента общественного здравоохранения. Исследователи собрали 4,5 млн. твитов, связанных с диабетом, диетой, физическими упражнениями и ожирением (ДДФуО), и проанализировали их с целью выявления корреляции между этими темами.
Эта работа разделена на введение, четыре главы, заключение и списка литературы.
Введение состоит из мотивации этой работы, списка целей, которые должны быть достигнуты в этой работе, и список завязанных работ, над которыми работают другие академики.
Первая глава этой работы состоит из фундаментальных основ машинного обучения и истории машинного обучения.
Вторая глава этой работы состоит из различных методов, которые могут быть использованы для подготовки текстовых данных для использования в процессе машинного обучения.
Третья глава работы описывает различные способы оценки и тестирования моделей машинного обучения.
Четвертая глава описывает пошаговый процесс извлечения из текста наборов признаков и их использования для обучения классификатора Random Forest.
Вывод состоит из анализа всех результатов, собранных в ходе этой работы.