1. Профиль компетенций
Участники должны обладать знаниями и практическими навыками в области
машинного обучения, анализа данных и обработки неструктурированной информации.
- базовые методы машинного обучения и статистического вывода;
- предобработка и очистка данных, feature engineering;
- работа с табличными и текстовыми данными;
- оценка качества моделей классификации, регрессии и кластеризации;
- владение Python и библиотеками NumPy, pandas, SciPy, scikit-learn, matplotlib, seaborn;
- работа с NLP-библиотеками (nltk, pymorphy2, transformers и др.);
- преобразование неструктурированных данных в векторные представления;
- использование предобученных моделей и работа с LLM;
- оптимизация вычислений при ограниченных ресурсах.
2. Программное обеспечение конкурсной площадки
- Операционная система: Windows 10/11
- Python 3.11 и выше
- Visual Studio Code
- Jupyter Notebook
- Базовые библиотеки для анализа данных и визуализации
- Дополнительные библиотеки устанавливаются участником самостоятельно
3. Формат конкурсного задания
Участникам необходимо разработать прикладной инструмент анализа
неструктурированных данных и реализовать рекомендательную модель
на основе анализа их содержимого.
- извлечение информации из текстовых и файловых источников;
- предобработка и очистка данных;
- преобразование данных в численные векторные представления;
- разработка рекомендательной модели;
- оценка качества модели;
- внедрение решения в прикладное приложение.
4. Формат проведения
Финальный этап проводится в очном формате. Все вычисления выполняются
на конкурсных компьютерах с ограниченными вычислительными ресурсами,
что требует эффективной оптимизации кода и использования памяти.
5. Ограничения
- запрещено использование генераторов кода и внешних AI-сервисов для автоматического решения задач;
- запрещена авторизация в облачных хранилищах, GitHub, онлайн-IDE и удалённых репозиториях;
- запрещено использование мессенджеров и средств удалённого подключения;
- запрещено скачивание и загрузка файлов через личные облачные хранилища;
- запрещён обход ограничений на вычислительные ресурсы.
6. Разрешённые ресурсы
- написание собственного кода и использование любых алгоритмов обработки данных;
- применение статистических методов и методов машинного обучения;
- использование бесплатных предобученных моделей;
- доступ к официальной документации и справочным ресурсам без авторизации;
- работа исключительно в локальной среде конкурсной площадки.