Skip to content

Lerostre/MovieReviewPlatform

Repository files navigation

MovieReviewPlatform

В этот репозиторий я скинул всё, что у меня получилось в ходе работы над сайтом для анализа отзывов на фильмы (только на английском!). Увидеть модель в действии можно вот по этой ссылке, если она ещё не отвалилась.

Качество моделей

Жирным модели, которые я планировал использовать на сайте, но в итоге использовал только логрег

Model Accuracy ROC-AUC
XLNet 93.6 0.981
RoBERTa 93.8 -
BERT 92.4 -
LSTM ~86 -
Optimized LogReg 90.5 0.966
LogReg 88.3 0.952
SVM 89.4 -
CatBoost 88.7 0.955
BernoulliNB 85.6 0.946
RandomForest 84.5 0.923

Что лежит в репозитории

По убованию важности

  1. ml_training.ipynb. Здесь находится всё, чем я занимался с классическими моделями машинного обучения: чуть-чуть предобработки, немножко EDA, выбор и обучения модели, тюнинг и интерпретирация модели. Там же есть интерфейс, вроде бы вполне рабочий, комментарии вроде бы достаточно подробные. Есть ещё смысл посмотреть эту же тетрадку на кеггле, там уже подключено всё, что нужно для работы
  2. dl_training.ipynb. Тут то же самое, но уже для нейросеток. По большей части оказалось бесполезно, потому что на PythonAnywhere (а больше платформ нет, все отказались работать с русичами) ограничение в 500Мб, столько весит и торч, и моя моделька. Тем не менее, качество там получилось побить, я бы использовал именно их, если бы мог. Опять же удобнее всего глянуть на кеггле
  3. report.pdf. Там лежит отчёт о проделанной работе. Но он довольно краток, для подробных описаний надо смотреть в ноутбуки, если есть силы и желание
  4. logreg_0.905. Это модель, которая пошла на сайт, её вид и точность даже прописаны в названии
  5. site. Здесь всё, что нужно для работы сайта. Я не веб-дизайнер и не фронтендер, поэтому всё работает криво и косо. В ноутбуках всё наоборот достаточно быстро
  6. catboost_tuning.ipynb. Тут я тюнил катбуст, но не доучил. У него был потенциал стать лучшей моделью, веса не слишком тяжёлые, но учится очень долго и требует гпу
  7. Вспомогательные файлики с метриками, в них ничего такого, что уже не описано в ноутбуках

Все ноутбуки скорее всего не прогружают графики в plotly, ещё один повод почекать их на кеггле

Прочее

  • Тут лежат датасеты, которые я использовал в работе. Собственно данные, немного статистики и первичные метрики по моделям
  • Тут лежат модели, которые я хотел использовать на сайте
  • Здесь собраны метрики по нейросетям, очень красиво
  • Это статья, которую советовали к прочтению перед заданием. Единственное, что там интересного это метрики - их достигнутый максимум это около 0.88
  • Тут бенчмарки и интересные идели по применению нейросетей к этому датасету, здесь я черпал идеи для DL-ного ноутбука

About

Movie review sentiment analysis available online

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages