Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергеев / PyDaCon meetup HD
22 июня Mail.ru Group прошел совместный митап с организаторами конференции PyCon Russia. Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup. «"Кис-кис, вдыхай меня через кес" или о чем говорят любители рэпа: Python для тематического моделирования комментариев ВКонтакте» Дмитрий Сергеев, Aalto University / DataGym Мы покажем, как собрать 10 миллионов комментариев, используя API ВКонтакте и YouTube, посмотрим, о чем говорят пользователи, слушающие разные жанры музыки, и дадим ответы на такие важные вопросы как: - Может ли тематическое моделирование помочь с кластеризацией жанров? - Есть ли что-то общее у слушателей шансона и джаза? - Как измерить близость Киркорова к Антохе МС? Программа мероприятия: Keynote: – «Как использовать JupyterHub на 100% на примере ML-школы DataGym и компании Lamoda» Петр Ермаков, Senior Data Scientist в Lamoda и Data Coach в DataGym Больше 2х лет назад я рассказывал о использовании jupyter на 100%. Но что, если вы не один? Как ужиться на одной машине 20 студентам, изучающим ML, или RND команде из 15? Готовые рецепты, рекомендации и собранные грабли. Python-трек: — «SQL-боттлнеки: поиск и устранение узких мест при масштабировании» Михаил Новиков, ведущий разработчик, Fasttrack (fstrk.io) Вы начинаете новый проект. Устанавливаете веб-фреймворк, ORM-фреймворк, пишете модели, делаете запросы к БД. Всё идет хорошо. Потом к вам приходит 100 000 пользователей — и проект падает под нагрузкой. Ваши действия? Такая ситуация была у нас полгода назад. Я расскажу, как мы нашли из нее выход, покажу наши подходы к поиску узких мест, сервисы, которые в этом помогают. И поясню, почему ванильный ORM — это зло. — «Сравнение технологий aiopg & asyncpg» Алексей Фирсов, ведущий разработчик aio-libs/aiopg Разберем, как работают две совершенно разные технологии aiopg & asyncpg — посмотрим, как они устроены. Что важно, мы не будем сравнивать скорость. PyData-трек: – «Оформление пайплайна в NLP проекте» Виталий Радченко, Data Scientist, YouScan Сейчас многие компании решают разные NLP-задачи (классификация, чат-боты, кластеризация, вопросное-ответные системы и др.) и с накоплением опыта стали вырабатываться наиболее эффективные пайплайны. В докладе мы будем ориентироваться на лучшие мировые практики (AllenNLP) и свой собственный опыт. Расскажем, как нужно структурировать ваш пайплайн и особенности каждой его составляющей: как правильно оформлять входящие данные, итераторы по датасету, каким должен быть словарь, подготовка данных и др. Будут приведены примеры с реальных задач и показано, как это помогает в воспроизводимости и легкости дальнейшего использования. – «Локализация контента и элементов интерфейса» Алина Красавина, Ведущий разработчик MAPS.ME, Mail.ru Group Рассказ о том, как устроена локализация на сервер-сайде MAPS.ME. Небольшая трогательная история о боли контент-менеджеров и преодолении разработч
Похожие видео
Показать еще