Git Product home page Git Product logo

books_parser's Introduction

Парсер книжной библиотеки

Программа парсит книжную библиотеку, проверяет каждый id в заданном диапазоне и если книга найдена, выдает по ней информацию.

Установка

Для установки клонируйте репозиторий, активируйте виртуальное окружение и установите зависимости

git clone https://github.com/ilyashirko/books_parser/
cd books_parser
python3 -m venv env
source env/bin/activate
pip3 install -r requirements.txt

books_parsing.py

Скрипт скачивает все доступные книги в заданном диапазоне.

Для запуска вам необходимо указать аргументы
--start_id (значение по умолчанию "1")
и
--end_id (значение по умолчанию "10").
"end_id" должно быть больше либо равно "start_id" иначе программа завершит работу с ошибкой.
Запустить программу можно командой:

python3 books_parsing.py --start_id 15 --end_id 35

И программа покажет вам информацию о книгах с уникальными номерами от 15 до 35 влючительно.

parse_tululu_category.py

Скрипт скачивает все доступные книги, обложку и информацию о книге, жанра "научная фантастика" со всех указанных страниц.

Программа принимает следующие аргументы:

  1. -s или --start_page - число больше нуля - первая страница на которой производится поиск книг.
  2. -e или --end_page - число больше start_page - последняя страница, на которой производится поиск книг.
  3. --skip_imgs - пропустить загрузку обложек.
  4. --skip_txt - не скачивать файлы книг.
  5. --dest_folder - задать директорию сохранения книг и обложек (по умолчанию - корневая директория проекта).
  6. --json_path - задать директорию и название .json-файла (по умолчанию - корневая директория проекта, на).

Для запуска введите python3 parse_tululu_category.py с необходимыми аргументами.
Например если хотите скачать книги с 20 по 23 страницу сайта без обложек введите:

python3 parse_tululu_category.py -s 20 -e 23 --skip_imgs

render_website.py

Данный скрипт создан для генерации страниц сайта по шаблону template.html используя данные из books.json и для локального запуска сайта.
Для корректной работы вам необходимо скачать базу данных выполнив один из скриптов выше, запустить render_website.py:

python3 render_website.py

и далее необходимо пересохранить файл template.html. Скрипт поймет что информация обновилась и переопределит все страницы сайта. Сайт будет доступен по адресу Reading books.

Ознакомиться с сайтом

Можно на странице GitHub Pages

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.