georgejzzz / poirot Goto Github PK

View Code? Open in Web Editor NEW

This project forked from zxjlm/poirot

0.0 0.0 0.0 15.86 MB

自动将字体文件映射为编码，主要用于中文字体反爬虫的破解

Home Page: https://blog.harumonia.moe/font-antispider-cracker/

License: GNU General Public License v2.0

Python 63.03% HTML 8.62% Dockerfile 1.43% Shell 0.85% Jupyter Notebook 26.08%

poirot's Introduction

Poirot

自动将字体文件(woff\woff2\ttf)映射为结果字典,主要用于中文字体反爬虫的破解,包括css字体映射和图片文字反爬虫.

具体的思路见如下几篇

DEMO ps. DEMO的版本为最初的fontforge版本

TODO

部署指定

部署样例网站
Docker
使用Redis管理api访问次数
解决socket通信混乱的问题

启动

~~windows 无法直接使用 flask run 启动,这会导致功能的缺失.~~
~~在mac或者linux下，可以在安装了 requirements.txt 中的依赖和 fontforge 之后使用 flask run 启动.~~ ~~docker 启动则没有这些烦恼, 真正意义上的傻瓜式使用.~~

在1.x之后的版本中,解除了对fontforge的依赖,所以能够直接在windows上面使用了😀

普通启动

poetry

poetry install --no-dev

flask run

pip

pip install -r requirements.txt

flask run

之后访问 "http://127.0.0.1:5000" 即可使用

docker 启动

可以直接使用docker启动

docker build . -t poirot
docker run -d poirot

ps. 国内使用可以先修改 Dockerfile 中的注释加快构建速度

如果按照 docker-compose.yml 启动，需要创建在宿主机对应的文件夹

/logs/gunicorn/poirot 存放日志
/root/data/poirot/font_collection 存放分析文件

mkdir -p /logs/gunicorn/poirot && mkdir -p /root/data/poirot/font_collection
docker up

测试用的文件

测试用的文件见 ./static/test_files

服务

提供web和api两类服务.

web: 如DEMO所示,发送字体文件到后端,解析完毕之后返回序列化结果到前端,再由前端序列化为json字符串 . 后端识别的结果会有误差，这个误差可以通过前端的人工校验抹除。

api: 出于功能拓展和使用方式多样化的角度考虑,在开发伊始特意将部分功能设计为api的形式. 目前总共有3个.

普通字体文件识别(/api/font_file_cracker): 并不推荐直接使用api, 中文文字识别的成功率只在 70%~80% , 需要配合人工审核, 所以对于中文, 建议使用web服务
数字特化(/api/special_for_printed_digits/): 与中文识别不同，数字的识别率在使用自训练的模型(./models/clf_model) 之后能够无限接近100% (至少目前没有遇到识别错误的案例)
单张图片识别(/api/img_cracker_via_local_ocr/): 针对单张图片进行识别, 这是开发过程中的副产物, 可以用于进行一些验证