В этот репозиторий я скинул всё, что у меня получилось в ходе работы над сайтом для анализа отзывов на фильмы (только на английском!). Увидеть модель в действии можно вот по этой ссылке, если она ещё не отвалилась.
Жирным модели, которые я планировал использовать на сайте, но в итоге использовал только логрег
Model | Accuracy | ROC-AUC |
---|---|---|
XLNet | 93.6 | 0.981 |
RoBERTa | 93.8 | - |
BERT | 92.4 | - |
LSTM | ~86 | - |
Optimized LogReg | 90.5 | 0.966 |
LogReg | 88.3 | 0.952 |
SVM | 89.4 | - |
CatBoost | 88.7 | 0.955 |
BernoulliNB | 85.6 | 0.946 |
RandomForest | 84.5 | 0.923 |
По убованию важности
ml_training.ipynb
. Здесь находится всё, чем я занимался с классическими моделями машинного обучения: чуть-чуть предобработки, немножко EDA, выбор и обучения модели, тюнинг и интерпретирация модели. Там же есть интерфейс, вроде бы вполне рабочий, комментарии вроде бы достаточно подробные. Есть ещё смысл посмотреть эту же тетрадку на кеггле, там уже подключено всё, что нужно для работыdl_training.ipynb
. Тут то же самое, но уже для нейросеток. По большей части оказалось бесполезно, потому что на PythonAnywhere (а больше платформ нет, все отказались работать с русичами) ограничение в 500Мб, столько весит и торч, и моя моделька. Тем не менее, качество там получилось побить, я бы использовал именно их, если бы мог. Опять же удобнее всего глянуть на кегглеreport.pdf
. Там лежит отчёт о проделанной работе. Но он довольно краток, для подробных описаний надо смотреть в ноутбуки, если есть силы и желаниеlogreg_0.905
. Это модель, которая пошла на сайт, её вид и точность даже прописаны в названииsite
. Здесь всё, что нужно для работы сайта. Я не веб-дизайнер и не фронтендер, поэтому всё работает криво и косо. В ноутбуках всё наоборот достаточно быстроcatboost_tuning.ipynb
. Тут я тюнил катбуст, но не доучил. У него был потенциал стать лучшей моделью, веса не слишком тяжёлые, но учится очень долго и требует гпу- Вспомогательные файлики с метриками, в них ничего такого, что уже не описано в ноутбуках
Все ноутбуки скорее всего не прогружают графики в plotly
, ещё один повод почекать их на кеггле
- Тут лежат датасеты, которые я использовал в работе. Собственно данные, немного статистики и первичные метрики по моделям
- Тут лежат модели, которые я хотел использовать на сайте
- Здесь собраны метрики по нейросетям, очень красиво
- Это статья, которую советовали к прочтению перед заданием. Единственное, что там интересного это метрики - их достигнутый максимум это около 0.88
- Тут бенчмарки и интересные идели по применению нейросетей к этому датасету, здесь я черпал идеи для DL-ного ноутбука