


Smart Auto Parser & Data Processor
automation
Python
Flask
Selenium
Docker
OpenAI API
DeepL API
Full-stack решение для автоматизации сбора, обработки и анализа данных с mobile.de.
Технологический стек
Python 3.9+FlaskSeleniumDockerReact (Frontend)
Возможности v1.0
- Обход защит от ботов (Undetected Chromedriver)
- Автоматический перевод (DeepL) и анализ (GPT-4o)
- Скачивание фото в MAX-качестве
- Веб-интерфейс с SSE и лайтбоксом
Подробная документация
Этот проект представляет собой высокотехнологичное Full-stack решение для автоматизации сбора, обработки и анализа данных с зарубежных классифайдов (на примере mobile.de). Приложение сочетает в себе современные методы веб-скрапинга, интеграцию с нейросетевыми API (DeepL/OpenAI) и удобную систему управления данными через веб-интерфейс.
Основные возможности
- Автоматизированный Скрапинг: Обход защит от ботов с помощью undetected-chromedriver и работа в "невидимом" режиме внутри Docker через Xvfb.
- Интеллектуальная обработка данных: Парсинг сложных структур данных (цены, технические характеристики, комплектации).
- AI Перевод: Автоматический перевод технической информации и описаний с немецкого на русский язык через DeepL API.
- Анализ GPT-4o: Возможность подключения OpenAI для глубокого анализа и суммаризации текста.
- Умная работа с медиа: Автоматический поиск и скачивание изображений в высоком разрешении (преобразование миниатюр в полноразмерные фото).
- Современный Веб-интерфейс: Мониторинг процесса парсинга в реальном времени через Server-Sent Events (SSE) и интерактивная галерея.
Архитектура системы
1
Двигатель скрапинга: Запускает Chrome в изолированном контейнере, проходит проверки безопасности.
2
Кеширование: Система проверяет наличие URL в кеше для экономии ресурсов.
3
Медиа-процессор: Извлекает ссылки на фото, модифицирует их для получения MAX-качества.
4
Хранение: Результаты сохраняются в структурированные JSON-файлы.