Smart Auto Parser & Data Processor
Smart Auto Parser & Data Processor screenshot 1
Smart Auto Parser & Data Processor screenshot 2

Smart Auto Parser & Data Processor

automation
Python
Flask
Selenium
Docker
OpenAI API
DeepL API

Full-stack решение для автоматизации сбора, обработки и анализа данных с mobile.de.

Технологический стек

Python 3.9+FlaskSeleniumDockerReact (Frontend)

Возможности v1.0

  • Обход защит от ботов (Undetected Chromedriver)
  • Автоматический перевод (DeepL) и анализ (GPT-4o)
  • Скачивание фото в MAX-качестве
  • Веб-интерфейс с SSE и лайтбоксом

Подробная документация

Этот проект представляет собой высокотехнологичное Full-stack решение для автоматизации сбора, обработки и анализа данных с зарубежных классифайдов (на примере mobile.de). Приложение сочетает в себе современные методы веб-скрапинга, интеграцию с нейросетевыми API (DeepL/OpenAI) и удобную систему управления данными через веб-интерфейс.

Основные возможности

  • Автоматизированный Скрапинг: Обход защит от ботов с помощью undetected-chromedriver и работа в "невидимом" режиме внутри Docker через Xvfb.
  • Интеллектуальная обработка данных: Парсинг сложных структур данных (цены, технические характеристики, комплектации).
  • AI Перевод: Автоматический перевод технической информации и описаний с немецкого на русский язык через DeepL API.
  • Анализ GPT-4o: Возможность подключения OpenAI для глубокого анализа и суммаризации текста.
  • Умная работа с медиа: Автоматический поиск и скачивание изображений в высоком разрешении (преобразование миниатюр в полноразмерные фото).
  • Современный Веб-интерфейс: Мониторинг процесса парсинга в реальном времени через Server-Sent Events (SSE) и интерактивная галерея.

Архитектура системы

1

Двигатель скрапинга: Запускает Chrome в изолированном контейнере, проходит проверки безопасности.

2

Кеширование: Система проверяет наличие URL в кеше для экономии ресурсов.

3

Медиа-процессор: Извлекает ссылки на фото, модифицирует их для получения MAX-качества.

4

Хранение: Результаты сохраняются в структурированные JSON-файлы.