Далее описывается паттерн, который используется для построения парсера на примере Авито
В коде не используются персональные данные. Данный парсер является частью системы визуализации:
- Данные считываются с сайта Авито
- Данные загружаются в NoSQL DB (MongoDB в облаке)
- (Вне данного кода) Данные из NoSQL DB подтягиваются в QlickSense и там отображаются дашборды
В коде используется пресет (entities.json) с данными для подключения к базе данных и иные вручную задаваемые параметры. Формат следующий:
{
"db_name": "Название БД",
"coll_name": "Название коллекции в БД",
"url": "https://www.avito.ru/moskva/kvartiry/prodam/novostroyka-ASgBAQICAUSSA8YQAUDmBxSOUg?p=1",
"adv_type": "Тип элементов в коллекции",
"API_key": "Свой API key с yandex maps api",
"default_city": "Москва",
"connect": "строка подключения до БД mongoDB"
}
Примечание:
- В url нужно принудительно указать номер страницы, как в примере
- Нужно получить api key с yandex maps для получения координат из адреса в коде