mgarcher / text_select_captcha Goto Github PK

实现文字点选、选字、选择、点触验证码识别，基于pytorch训练

Python 100.00%

text_select_captcha's Introduction

点击选择文字验证码识别

文字点选、选字、选择文字验证码识别

特点

识别速度约在300~500ms之间  
96%的准确率  
小样本训练（此模型训练采用了300张验证码）  
低消耗，代码在低配置机器上也可运行（1核2G服务器无压力运行）  
仅在windows下python3.6、python3.8、python3.10使用
可自己训练模型使用本项目，不受平台限制

常见问题：

关于ModuleNotFoundError: No module named 'src.utils.load' 问题：
模型文件被经过处理后只能使用于本项目中，本项目现在仅支持在windows下python3.6、python3.8、python3.10使用
可以传入自己训练的onnx模型即可再其他环境中使用，可将参数sign修改为False并传入相应的onnx模型即可

from src.captcha import TextSelectCaptcha, drow_img
cap = TextSelectCaptcha(per_path='xxx.onnx', yolo_path='xxx.onnx', sign=False)

效果演示

免责声明

本项目旨在研究深度学习在验证码攻防上的应用。仅供学习交流使用，请勿用于非法用途，不得在任何商业使用，本人不承担任何法律责任。

请作者喝可乐**o(￣︶￣)o**

Wechat Pay	Ali Pay

有定制需求联系邮件[email protected]

有什么问题或需求欢迎各位在lssues中提问或联系邮件[email protected]

如何使用

1、准备运行环境：
pip install -r requirements.txt
2、普通使用：
python demo.py
3、服务启动方式，启动后访问http://127.0.0.1:8000/docs#/查看接口文档
python service.py
4、bilbil演示
python bilbil.py

from src.captcha import TextSelectCaptcha
# python代码使用
"""
per_path:   为孪生网络模型文件路径
yolo_path:  为目标检测模型文件路径
sign:       sign为True传入加密后的模型bin文件，为Flase传入onnx文件
"""
cap = TextSelectCaptcha(per_path='pre_model_v2.bin', yolo_path='best_v2.bin', sign=True)  
image_path = "docs/res.jpg"
result = cap.run(image_path)

结果如下：

文字坐标： [[119, 174, 193, 244], [223, 189, 298, 267], [87, 69, 158, 140], [31, 196, 109, 275]] 耗时：163ms
返回的结果为文字在图片中的坐标，返回坐标的顺序就是文字点击的顺序

原始	检测	识别

更新说明

2023.04.23更新: 更改检测识别模型，修改返回结构

2023.08.18更新: 取消推理代码编译，只对模型加载地方进行编译；优化web接口

2023.09.22更新：增加消消乐验证码破解

消消乐的说明 https://juejin.cn/post/7282889267030016061

python xiaoxiaole.py
执行即可找出最近的可以被消除的行或者列

2023.09.28更新：发布v2版本模型，增加了模型的泛化能力，提升推理速度,但是准确率下降到90%左右

2023.11.12更新：优化提升了模型识别准确率，略微提升推理速度，修改代码结构

实现流程

问题拆解

对于点选式验证码的问题，我们可以将其拆解为两个小问题：

1、确定需要点击的字的数量和位置： 对于点选式验证码，准确识别和定位需要点击的字的数量和位置是解决问题的关键。其中，一种常见的目标检测算法是 YOLO，通过标注数据集和训练模型，可以实现对需要点击的字进行准确识别和定位。本项目采用的是 yolov5 模型，该模型在目标检测方面表现出色，具有高速和较高的准确性。

2、对点击的字进行排序： 在确定出需要点击的字的位置后，需要按照一定的规则对这些字进行排序。采用传统的方案是通过识别图片中的文字，然后按照文字位置进行排序，但这种方法训练困难。因此，本项目采用了图片匹配模型，使用 Siamese 孪生网络对需要点击的字与预先准备好的字库中的字进行匹配，找到最佳匹配的字，并按照一定的规则进行排序。Siamese 孪生网络在图像匹配方面表现优异，能够有效地提高排序的准确性和稳定性。

部分训练集

百度网盘链接：https://pan.baidu.com/s/1IYfxVpanXyqVQ8ZFVOskrg 提取码：sp97
训练模型

训练代码在下方参考文档中
yolov5训练过程：
训练流程一般包括如下几个步骤：获取训练数据集、数据预处理、模型选择、设置损失函数、反向传播和更新权值等。

对于 YOLO 模型的训练流程，可以参考下方参考文档中的文档。基本流程是，首先下载训练数据集，数据集应该包含带有标注的图像和对应的标注数据。然后使用标注工具对图像进行标注，标注工具可以在 GitHub 上找到。标注的数据应该包括目标的类别和位置信息。

yolo标注结果

如图所示，可以对背景图中的文字进行 char 类别的标注，对需要检测的文字进行 target 类别的标注。在训练时，模型会学习如何从图像中定位和识别目标文本。

接下来是选择合适的模型。YOLO 系列模型有多个版本，可以根据不同的需求选择适合的版本。选择好模型后，需要设置损失函数和训练参数，进行模型训练。在训练过程中，需要采用反向传播算法计算损失函数的梯度，并更新权值，以提高模型的预测准确度。本项目使用的预训练模型是yolov5s6。

训练结束后，可以将模型保存成 ONNX 格式，以便在推理时进行加载和使用。

yolo检测结果

Siamese训练过程：

在使用孪生网络进行图像检索任务的训练前，需要对数据集进行准备。与其他模型不同，孪生网络的训练需要用到正负样本对，因此需要对数据集中的每张图像都生成一些与之匹配和不匹配的样本对。

具体实现时，一般采用已经训练好的检测模型来生成样本对。

具体操作流程如下：首先，使用检测模型对数据集中的图像进行检测，截取出每个目标的图像片段；然后，把该图像片段分别与数据集中的其他目标进行匹配和不匹配的组合，形成匹配和不匹配的样本对；最后，根据样本对的匹配情况对其进行标注，将匹配和不匹配的样本对分别放到不同的文件夹中，按照类别和顺序标注好，方便后续使用。

如下图所示，每张图像都会对应一个匹配和不匹配的样本对，每个样本对包含两张图像，分别作为孪生网络的输入。

孪生网络标注结果

训练数据准备好后，具体训练过程可参考下方参考文档中的文档。

同样的，训练结束后，可以将模型保存成 ONNX 格式，以便在推理时进行加载和使用。

孪生网络标注结果

如图所示，孪生网络输出的结果可以给出背景图中的目标与右下角的目标最相似的结果，而左下角的目标则可以通过按照左坐标进行排序来得到。由此，可以方便地得到背景图中所有目标的顺序。

推理部署

推理部署过程是将 YOLO 和 Siamese 模型都转换为 ONNX 模型，以便在 CPU 上使用模型，并提高部署难度和运行速度。通过模型转换，可以将模型从原有的深度学习框架中的特定格式转换成 ONNX 格式，使得模型可以在多个平台上使用，并且可以在不同的编程语言之间轻松交互。
onnx介绍：

  ONNX，即开放神经网络交换格式（Open Neural Network Exchange），是一个可以让不同深度学习框架之间互相转换和
使用模型的开放标准。它由 Facebook 和 Microsoft 共同开发，旨在为深度学习模型的部署和迁移提供更加方便和灵活的解决方案。
ONNX 支持包括 PyTorch、TensorFlow、CNTK 和 MXNet 等在内的多个深度学习框架，可以将这些框架训练出的模型转换成
ONNX 格式，从而可以被其他框架或应用所使用。

ONNX 的主要优点包括：

互操作性好：ONNX 支持多个深度学习框架之间的模型转换，使得它们可以互相使用和部署，从而减少了开发和部署的难度和成本；

高效性能：ONNX 可以在多种硬件和软件平台上运行，并提供了 C++和 Python 接口，可以大幅提高模型执行的效率和速度；

易于扩展：ONNX 的架构简单清晰，可以轻松地添加新的层次和类型，方便应对不断升级变化的深度学习技术和需求。

总之，ONNX 是一个方便快捷的深度学习模型转换和交换标准，可以帮助开发者更加轻松地将深度学习模型进行部署和迁移。

在将模型转换为 ONNX 格式后，对代码进行编译也是必不可少的一步。通过编译，可以将 Python 代码转换成机器语言代码，进一步提高模型的运行效率和速度。同时，也可以减少代码的存储空间，使得模型能够更快地在 CPU 上加载和运行。

参考文档

https://github.com/ultralytics/yolov5
https://github.com/bubbliiiing/Siamese-pytorch

点个star再走呗！

text_select_captcha's People

Contributors

Stargazers

Watchers

Forkers

londonl sth1026647253 leiyugithub qq703048949 luoyanhan aaaronchen xiaoran-xr sumerzhang zsx22705 linupychiang qqizai superdashu onetwo1 no-bb-just-do-it xwlyf afeng521 cyhlnj joedidi adewin fengjixuchui shikigit allensmile windseason666 cugbaoyi bonyz evinstar fathui zwgff llgiser onegithuber gojerry wiyos yibit pengjinfu gongxiaoze purityzw 1543889217 zzhangjian payiz-asj coco369 never-for-in-love xuanlv1998 kokozh crystalgit zhu-hh daimakuai lyg4795 dev-bobbie yangshimin h1code2 zuiailaoda longkex zunhai lihaineng xuhaomin skadai belinkang anttutu qiu512398604 puti-flower wanghaha1256 evaoeva southwhale loliconroot 18670775011 copilot-x planet-2020 xuncv anylayer cyl666 tianling2020 ice-points vgyg 17702296834 tt9826 piaoxue88 hyq-python fengmstrong deemoascii innovationb1ue kingking888 feilongluo miven qingshuiyuyu 404nofoundx anbest2050 bmxbmx3 lonelypoker rezalt-l tdlist 1026cy alansec tankingsley jiongjiong-zzzzzz py-wen-song hanger23 wang19980123 supjoeeeeeey casual-silva xianyucoder

text_select_captcha's Issues

网络结构

大佬可以发下网络结构吗

训练后的onnx文件和model目录下的bin文件格式不一样

请问是要将onnx文件再转成bin文件吗

mode_one 在无独显时运行的问题

在使用 mode_one 版本时报错：AssertionError: Torch not compiled with CUDA enabled

下图是我的 Windows 配置信息：

我笔记本没有独显，是核显，看代码中已经有了 cpu / gpu 的判断，但是可能是没有改彻底？还是 ... ？

在使用 mode_two 版本时运行 bilbil.py ，我的电脑需要修改 selenium 模拟点击时的 X - 40+ x * lan_x 中 40 改为 22 左右即可正常识别。

Siamese训练过程请问这个，数据集是每个汉子都要标注样本集么？

在B站上弄了几张验证码图片，总是少识别一两个字

有些字还是框不出来

图片识别错误

您好，请问您这个项目识别图片的尺寸格式是有什么限制吗？我这边使用本地的图片识别会报错,您能帮忙给看看吗？
因为您的主要代码编译了，我看不到源码，完全无法调试

能否告知一下crnn如何训练的？

我自己制作imdb数据集制作完成了，然后我应该如何训练crnn模型？另外，数据集的验证集又是怎么得来的？
望告知，谢谢

kenlm这个包一直安装不上

Collecting https://github.com/kpu/kenlm/archive/master.zip
Using cached https://github.com/kpu/kenlm/archive/master.zip
Building wheels for collected packages: kenlm
Building wheel for kenlm (setup.py): started
Building wheel for kenlm (setup.py): finished with status 'error'
ERROR: Command errored out with exit status 1:
command: 'D:\software\Anaconda\envs\conda_env\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\Users\ADMINI1\AppData\Local\Temp\pip-req-build-uoe_q63e\setup.py'"'"'; file='"'"'C:\Users\ADMINI1\AppData\Local\Temp\pip-req-build-uoe_q63e\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' bdist_wheel -d 'C:\Users\ADMINI1\AppData\Local\Temp\pip-wheel-k_5ax5yu'
cwd: C:\Users\ADMINI1\AppData\Local\Temp\pip-req-build-uoe_q63e
Complete output (5 lines):
running bdist_wheel
running build
running build_ext
building 'kenlm' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Build Tools for Visual Studio": https://visualstudio.microsoft.com/downloads/

ERROR: Failed building wheel for kenlm
Running setup.py clean for kenlm
Failed to build kenlm
Installing collected packages: kenlm
Running setup.py install for kenlm: started
Running setup.py install for kenlm: finished with status 'error'
ERROR: Command errored out with exit status 1:
command: 'D:\software\Anaconda\envs\conda_env\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\Users\ADMINI~~1\AppData\Local\Temp\pip-req-build-uoe_q63e\setup.py'"'"'; file='"'"'C:\Users\ADMINI~~1\AppData\Local\Temp\pip-req-build-uoe_q63e\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' install --record 'C:\Users\ADMINI1\AppData\Local\Temp\pip-record-0198um7b\install-record.txt' --single-version-externally-managed --compile --install-headers 'D:\software\Anaconda\envs\conda_env\Include\kenlm'
cwd: C:\Users\ADMINI1\AppData\Local\Temp\pip-req-build-uoe_q63e
Complete output (5 lines):
running install
running build
running build_ext
building 'kenlm' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Build Tools for Visual Studio": https://visualstudio.microsoft.com/downloads/
----------------------------------------
ERROR: Command errored out with exit status 1: 'D:\software\Anaconda\envs\conda_env\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\Users\ADMINI~~1\AppData\Local\Temp\pip-req-build-uoe_q63e\setup.py'"'"'; file='"'"'C:\Users\ADMINI~~1\AppData\Local\Temp\pip-req-build-uoe_q63e\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' install --record 'C:\Users\ADMINI~1\AppData\Local\Temp\pip-record-0198um7b\install-record.txt' --single-version-externally-managed --compile --install-headers 'D:\software\Anaconda\envs\conda_env\Include\kenlm' Check the logs for full command output.

新版本docs也出不来

ubuntu怎么用啊

请教下，Siamese孪生3060ti训练，为啥1.7it/s左右的速度，这个速度正常吗?

这是我的配置：


    # ----------------------------------------------------#
    #   是否使用Cuda
    #   没有GPU可以设置成False
    # ----------------------------------------------------#
    Cuda = True
    # ---------------------------------------------------------------------#
    #   distributed     用于指定是否使用单机多卡分布式运行
    #                   终端指令仅支持Ubuntu。CUDA_VISIBLE_DEVICES用于在Ubuntu下指定显卡。
    #                   Windows系统下默认使用DP模式调用所有显卡，不支持DDP。
    #   DP模式：
    #       设置            distributed = False
    #       在终端中输入    CUDA_VISIBLE_DEVICES=0,1 python train.py
    #   DDP模式：
    #       设置            distributed = True
    #       在终端中输入    CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2 train.py
    # ---------------------------------------------------------------------#
    distributed = False
    # ---------------------------------------------------------------------#
    #   sync_bn     是否使用sync_bn，DDP模式多卡可用
    # ---------------------------------------------------------------------#
    sync_bn = False
    # ---------------------------------------------------------------------#
    #   fp16        是否使用混合精度训练
    #               可减少约一半的显存、需要pytorch1.7.1以上
    # ---------------------------------------------------------------------#
    fp16 = False
    # ----------------------------------------------------#
    #   数据集存放的路径
    # ----------------------------------------------------#
    dataset_path = "datasets"
    # ----------------------------------------------------#
    #   输入图像的大小，默认为105,105,3
    # ----------------------------------------------------#
    input_shape = [105, 105]
    # ----------------------------------------------------#
    #   当训练Omniglot数据集时设置为False
    #   当训练自己的数据集时设置为True
    #
    #   训练自己的数据和Omniglot数据格式不一样。
    #   详情可看README.md
    # ----------------------------------------------------#
    train_own_data = True
    # -------------------------------#
    #   用于指定是否使用VGG预训练权重
    #   有两种获取方式
    #   1、利用百度网盘下载后放入
    #      ./model_data/
    #   2、直接运行自动下载
    # -------------------------------#
    pretrained = True
    # ----------------------------------------------------------------------------------------------------------------------------#
    #   权值文件的下载请看README，可以通过网盘下载。模型的 预训练权重 对不同数据集是通用的，因为特征是通用的。
    #   模型的 预训练权重 比较重要的部分是 主干特征提取网络的权值部分，用于进行特征提取。
    #   预训练权重对于99%的情况都必须要用，不用的话主干部分的权值太过随机，特征提取效果不明显，网络训练的结果也不会好
    #
    #   如果训练过程中存在中断训练的操作，可以将model_path设置成logs文件夹下的权值文件，将已经训练了一部分的权值再次载入。
    #   同时修改下方的 冻结阶段 或者 解冻阶段 的参数，来保证模型epoch的连续性。
    #   
    #   当model_path = ''的时候不加载整个模型的权值。
    #
    #   此处使用的是整个模型的权重，因此是在train.py进行加载的，pretrain不影响此处的权值加载。
    #   如果想要让模型从主干的预训练权值开始训练，则设置model_path = ''，pretrain = True，此时仅加载主干。
    #   如果想要让模型从0开始训练，则设置model_path = ''，pretrain = Fasle，此时从0开始训练。
    #   一般来讲，从0开始训练效果会很差，因为权值太过随机，特征提取效果不明显。
    #
    #   网络一般不从0开始训练，至少会使用主干部分的权值，有些论文提到可以不用预训练，主要原因是他们 数据集较大 且 调参能力优秀。
    #   如果一定要训练网络的主干部分，可以了解imagenet数据集，首先训练分类模型，分类模型的 主干部分 和该模型通用，基于此进行训练。
    # ----------------------------------------------------------------------------------------------------------------------------#
    model_path = "./logs/best_epoch_weights.pth"

    # ----------------------------------------------------------------------------------------------------------------------------#
    #   显存不足与数据集大小无关，提示显存不足请调小batch_size。
    #   受到BatchNorm层影响，不能为1。
    #
    #   在此提供若干参数设置建议，各位训练者根据自己的需求进行灵活调整：
    #   （一）从预训练权重开始训练：
    #       Adam：
    #           Init_Epoch = 0，Epoch = 100，optimizer_type = 'adam'，Init_lr = 1e-3，weight_decay = 0。
    #       SGD：
    #           Init_Epoch = 0，Epoch = 100，optimizer_type = 'sgd'，Init_lr = 1e-2，weight_decay = 5e-4。
    #       其中：UnFreeze_Epoch可以在100-300之间调整。
    #   （二）batch_size的设置：
    #       在显卡能够接受的范围内，以大为好。显存不足与数据集大小无关，提示显存不足（OOM或者CUDA out of memory）请调小batch_size。
    #       受到BatchNorm层影响，batch_size最小为2，不能为1。
    #       正常情况下Freeze_batch_size建议为Unfreeze_batch_size的1-2倍。不建议设置的差距过大，因为关系到学习率的自动调整。
    # ----------------------------------------------------------------------------------------------------------------------------#
    # ------------------------------------------------------#
    #   训练参数
    #   Init_Epoch      模型当前开始的训练世代
    #   Epoch           模型总共训练的epoch
    #   batch_size      每次输入的图片数量
    # ------------------------------------------------------#
    Init_Epoch = 3
    Epoch = 100
    batch_size = 64

    # ------------------------------------------------------------------#
    #   其它训练参数：学习率、优化器、学习率下降有关
    # ------------------------------------------------------------------#
    # ------------------------------------------------------------------#
    #   Init_lr         模型的最大学习率
    #                   当使用Adam优化器时建议设置  Init_lr=1e-3
    #                   当使用SGD优化器时建议设置   Init_lr=1e-2
    #   Min_lr          模型的最小学习率，默认为最大学习率的0.01
    # ------------------------------------------------------------------#
    Init_lr = 1e-2
    Min_lr = Init_lr * 0.01
    # ------------------------------------------------------------------#
    #   optimizer_type  使用到的优化器种类，可选的有adam、sgd
    #                   当使用Adam优化器时建议设置  Init_lr=1e-3
    #                   当使用SGD优化器时建议设置   Init_lr=1e-2
    #   momentum        优化器内部使用到的momentum参数
    #   weight_decay    权值衰减，可防止过拟合
    #                   adam会导致weight_decay错误，使用adam时建议设置为0。
    # ------------------------------------------------------------------#
    optimizer_type = "sgd"
    momentum = 0.9
    weight_decay = 5e-4
    # ------------------------------------------------------------------#
    #   lr_decay_type   使用到的学习率下降方式，可选的有'step'、'cos'
    # ------------------------------------------------------------------#
    lr_decay_type = 'cos'
    # ------------------------------------------------------------------#
    #   save_period     多少个epoch保存一次权值
    # ------------------------------------------------------------------#
    save_period = 10
    # ------------------------------------------------------------------#
    #   save_dir        权值与日志文件保存的文件夹
    # ------------------------------------------------------------------#
    save_dir = 'logs'
    # ------------------------------------------------------------------#
    #   num_workers     用于设置是否使用多线程读取数据，1代表关闭多线程
    #                   开启后会加快数据读取速度，但是会占用更多内存
    #                   在IO为瓶颈的时候再开启多线程，即GPU运算速度远大于读取图片的速度。
    # ------------------------------------------------------------------#
    num_workers = 8

    # ------------------------------------------------------#
    #   设置用到的显卡
    # ------------------------------------------------------#
    ngpus_per_node = torch.cuda.device_count()
    if distributed:
        dist.init_process_group(backend="nccl")
        local_rank = int(os.environ["LOCAL_RANK"])
        rank = int(os.environ["RANK"])
        device = torch.device("cuda", local_rank)
        if local_rank == 0:
            print(f"[{os.getpid()}] (rank = {rank}, local_rank = {local_rank}) training...")
            print("Gpu Device Count : ", ngpus_per_node)
    else:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        local_rank = 0
        rank = 0

    if pretrained:
        if distributed:
            if local_rank == 0:
                download_weights("vgg16")
            dist.barrier()
        else:
            download_weights("vgg16")

    model = Siamese(input_shape, pretrained)
    if model_path != '':
        # ------------------------------------------------------#
        #   权值文件请看README，百度网盘下载
        # ------------------------------------------------------#
        if local_rank == 0:
            print('Load weights {}.'.format(model_path))

        # ------------------------------------------------------#
        #   根据预训练权重的Key和模型的Key进行加载
        # ------------------------------------------------------#
        model_dict = model.state_dict()
        pretrained_dict = torch.load(model_path, map_location=device)
        load_key, no_load_key, temp_dict = [], [], {}
        for k, v in pretrained_dict.items():
            if k in model_dict.keys() and np.shape(model_dict[k]) == np.shape(v):
                temp_dict[k] = v
                load_key.append(k)
            else:
                no_load_key.append(k)
        model_dict.update(temp_dict)
        model.load_state_dict(model_dict)
        # ------------------------------------------------------#
        #   显示没有匹配上的Key
        # ------------------------------------------------------#
        if local_rank == 0:
            print("\nSuccessful Load Key:", str(load_key)[:500], "……\nSuccessful Load Key Num:", len(load_key))
            print("\nFail To Load Key:", str(no_load_key)[:500], "……\nFail To Load Key num:", len(no_load_key))
            print("\n\033[1;33;44m温馨提示，head部分没有载入是正常现象，Backbone部分没有载入是错误的。\033[0m")

    # ----------------------#
    #   获得损失函数
    # ----------------------#
    loss = nn.BCEWithLogitsLoss()
    # ----------------------#
    #   记录Loss
    # ----------------------#
    if local_rank == 0:
        loss_history = LossHistory(save_dir, model, input_shape=input_shape)
    else:
        loss_history = None

    # ------------------------------------------------------------------#
    #   torch 1.2不支持amp，建议使用torch 1.7.1及以上正确使用fp16
    #   因此torch1.2这里显示"could not be resolve"
    # ------------------------------------------------------------------#
    if fp16:
        from torch.cuda.amp import GradScaler as GradScaler

        scaler = GradScaler()
    else:
        scaler = None

    model_train = model.train()
    # ----------------------------#
    #   多卡同步Bn
    # ----------------------------#
    if sync_bn and ngpus_per_node > 1 and distributed:
        model_train = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model_train)
    elif sync_bn:
        print("Sync_bn is not support in one gpu or not distributed.")

    if Cuda:
        if distributed:
            # ----------------------------#
            #   多卡平行运行
            # ----------------------------#
            model_train = model_train.cuda(local_rank)
            model_train = torch.nn.parallel.DistributedDataParallel(model_train, device_ids=[local_rank],
                                                                    find_unused_parameters=True)
        else:
            model_train = torch.nn.DataParallel(model)
            cudnn.benchmark = True
            model_train = model_train.cuda()

    # ----------------------------------------------------#
    #   训练集和验证集的比例。
    # ----------------------------------------------------#
    train_ratio = 0.9
    train_lines, train_labels, val_lines, val_labels = load_dataset(dataset_path, train_own_data, train_ratio)
    num_train = len(train_lines)
    num_val = len(val_lines)

    if local_rank == 0:
        show_config(
            model_path=model_path, input_shape=input_shape,
            Init_Epoch=Init_Epoch, Epoch=Epoch, batch_size=batch_size,
            Init_lr=Init_lr, Min_lr=Min_lr, optimizer_type=optimizer_type, momentum=momentum,
            lr_decay_type=lr_decay_type,
            save_period=save_period, save_dir=save_dir, num_workers=num_workers, num_train=num_train, num_val=num_val
        )
        # ---------------------------------------------------------#
        #   总训练世代指的是遍历全部数据的总次数
        #   总训练步长指的是梯度下降的总次数 
        #   每个训练世代包含若干训练步长，每个训练步长进行一次梯度下降。
        #   此处仅建议最低训练世代，上不封顶，计算时只考虑了解冻部分
        # ----------------------------------------------------------#
        wanted_step = 3e4 if optimizer_type == "sgd" else 1e4
        total_step = num_train // batch_size * Epoch
        if total_step <= wanted_step:
            wanted_epoch = wanted_step // (num_train // batch_size) + 1
            print("\n\033[1;33;44m[Warning] 使用%s优化器时，建议将训练总步长设置到%d以上。\033[0m" % (
                optimizer_type, wanted_step))
            print(
                "\033[1;33;44m[Warning] 本次运行的总训练数据量为%d，batch_size为%d，共训练%d个Epoch，计算出总训练步长为%d。\033[0m" % (
                    num_train, batch_size, Epoch, total_step))
            print("\033[1;33;44m[Warning] 由于总训练步长为%d，小于建议总步长%d，建议设置总世代为%d。\033[0m" % (
                total_step, wanted_step, wanted_epoch))

    # -------------------------------------------------------------#
    #   训练分为两个阶段，两阶段初始的学习率不同，手动调节了学习率
    #   显存不足与数据集大小无关，提示显存不足请调小batch_size。
    # -------------------------------------------------------------#
    if True:
        # -------------------------------------------------------------------#
        #   判断当前batch_size，自适应调整学习率
        # -------------------------------------------------------------------#
        nbs = 64
        lr_limit_max = 1e-3 if optimizer_type == 'adam' else 1e-1
        lr_limit_min = 3e-4 if optimizer_type == 'adam' else 5e-4
        Init_lr_fit = min(max(batch_size / nbs * Init_lr, lr_limit_min), lr_limit_max)
        Min_lr_fit = min(max(batch_size / nbs * Min_lr, lr_limit_min * 1e-2), lr_limit_max * 1e-2)

        # ---------------------------------------#
        #   根据optimizer_type选择优化器
        # ---------------------------------------#
        optimizer = {
            'adam': optim.Adam(model.parameters(), Init_lr_fit, betas=(momentum, 0.999), weight_decay=weight_decay),
            'sgd': optim.SGD(model.parameters(), Init_lr_fit, momentum=momentum, nesterov=True,
                             weight_decay=weight_decay)
        }[optimizer_type]

        # ---------------------------------------#
        #   获得学习率下降的公式
        # ---------------------------------------#
        lr_scheduler_func = get_lr_scheduler(lr_decay_type, Init_lr_fit, Min_lr_fit, Epoch)

        # ---------------------------------------#
        #   判断每一个世代的长度
        # ---------------------------------------#
        epoch_step = num_train // batch_size
        epoch_step_val = num_val // batch_size

        if epoch_step == 0 or epoch_step_val == 0:
            raise ValueError("数据集过小，无法继续进行训练，请扩充数据集。")

        train_dataset = SiameseDataset(input_shape, train_lines, train_labels, True)
        val_dataset = SiameseDataset(input_shape, val_lines, val_labels, False)

        if distributed:
            train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, shuffle=True, )
            val_sampler = torch.utils.data.distributed.DistributedSampler(val_dataset, shuffle=False, )
            batch_size = batch_size // ngpus_per_node
            shuffle = False
        else:
            train_sampler = None
            val_sampler = None
            shuffle = True

        gen = DataLoader(train_dataset, shuffle=shuffle, batch_size=batch_size, num_workers=num_workers,
                         pin_memory=True,
                         drop_last=True, collate_fn=dataset_collate, sampler=train_sampler)
        gen_val = DataLoader(val_dataset, shuffle=shuffle, batch_size=batch_size, num_workers=num_workers,
                             pin_memory=True,
                             drop_last=True, collate_fn=dataset_collate, sampler=val_sampler)

        for epoch in range(Init_Epoch, Epoch):
            if distributed:
                train_sampler.set_epoch(epoch)

            set_optimizer_lr(optimizer, lr_scheduler_func, epoch)

            fit_one_epoch(model_train, model, loss, loss_history, optimizer, epoch, epoch_step, epoch_step_val, gen,
                          gen_val, Epoch, Cuda, fp16, scaler, save_period, save_dir, local_rank)

        if local_rank == 0:
            loss_history.writer.close()

面板：

日志：

按照这个测评，512×512的图片处理速度 7.39it/s，也就是说105×105的图片速度应该更高。

yolo转onnx

您好，我在windows上用darknet的yolov3训练出了weights文件，但是这个project用的是onnx，我自己找了很多转格式的方法但是都不行，能麻烦问下您是用的什么转的格式吗？
THX

请问单独识别这类图片中的单个字坐标，支持吗？

windows kenlm 各种报错，装不上

模型1调用报错

res = run_click('bilbil.jpg')

File "C:\Users\xiaolong.shi\Documents\companycode\mihoyo-popinion-bilibili-robot\mode_one.py", line 17, in run_click
return discern.text_predict(orientation.location_predict(path), path)
File "C:\Users\xiaolong.shi\Documents\companycode\mihoyo-popinion-bilibili-robot\src\discern.py", line 136, in text_predict
text_list = get_text(X, title)
File "C:\Users\xiaolong.shi\Documents\companycode\mihoyo-popinion-bilibili-robot\src\discern.py", line 104, in get_text
results = update_text(text_list, title)
File "C:\Users\xiaolong.shi\Documents\companycode\mihoyo-popinion-bilibili-robot\src\discern.py", line 72, in update_text
text_list[number] = (no_text.pop())
KeyError: 'pop from an empty set'

crnn，cnn模型训练

请问怎么训练自己的模型，或者有群交流吗？

怎么训练自己的模型啊？

windows环境是不是运行不起来

onnxruntime 这个包必须linux环境吧

请问，佬可以给个训练过程的一个代码吗，小白一个，跪求

使用佬的代码可以运行，比如网站更新等等，我怎么去自己进行训练，1.先去收集图片，之后呢，有没有个整体训练的一个思路过程或者代码

mac 下报错：No module named 'src.captcha'

Can't get attribute 'SiLU' on <module 'torch.nn.modules.activation'

Traceback (most recent call last):
File "C:/Users/86157/Desktop/Text_select_captcha-master1/bilbil.py", line 27, in
cap = captcha.TextSelectCaptcha()
File "C:\Users\86157\Desktop\Text_select_captcha-master1\src\captcha.py", line 29, in init
self.yolo = YOLO(path(save_path, yolo_path), GPU)
File "C:\Users\86157\Desktop\Text_select_captcha-master1\src\utils\orientation.py", line 243, in init
self.model = attempt_load(weights, map_location=self.device)
File "C:\Users\86157\Desktop\Text_select_captcha-master1\src\utils\models\experimental.py", line 117, in attempt_load
ckpt = torch.load(w, map_location=map_location) # load
File "C:\Anaconda3\envs\Text_select_captcha-master\lib\site-packages\torch\serialization.py", line 592, in load
return _load(opened_zipfile, map_location, pickle_module, **pickle_load_args)
File "C:\Anaconda3\envs\Text_select_captcha-master\lib\site-packages\torch\serialization.py", line 852, in _load
result = unpickler.load()
AttributeError: Can't get attribute 'SiLU' on <module 'torch.nn.modules.activation' from 'C:\Anaconda3\envs\Text_select_captcha-master\lib\site-packages\torch\nn\modules\activation.py'>

多线程并发问题

启动service后，多线程调用接口进行预测，所有结果要乘线程数量的总时间延迟后统一出结果就很离谱

cuda out of memory

请教一下在预测时crnn读取模型 crnn.load_weights(crnn_opt.ocrModel)显存不足，换成了load_state_dict但计算结果时显存依然内存溢出，我是8G的显存，该怎么处理呢

关于crnn训练

大神我又来了，训练crnn的时候。我用别人的预训练模型，再加上你给的title_bilbil数据迁移学习，过拟合了，不知道你在训练的时候会有这样的情况吗

请问可以提供一下训练集、验证集、测试集图片吗

请问博主，可以提供一下训练集、验证集、测试集图片吗

bilbil.py运行后超时

Traceback (most recent call last):
File "C:/Users/86157/Desktop/Text_select_captcha-master/bilbil.py", line 120, in
jd.bibi()
File "C:/Users/86157/Desktop/Text_select_captcha-master/bilbil.py", line 88, in bibi
(By.XPATH, xpath)))
File "C:\Anaconda3\envs\Text_select_captcha-master\lib\site-packages\selenium\webdriver\support\wait.py", line 80, in until
raise TimeoutException(message, screen, stacktrace)
selenium.common.exceptions.TimeoutException: Message:

接口文档报错

刚好就是装了python3.9

恰恰是python3.9无法用嘛

请问使用yoloV5检测分割完图片后，后续如何实现类别标注呢？

就是假设我已经把1000张验证码图片中的汉字识别出位置并分割成了小图片，后续该如何利用卷积神经网络训练识别这些小图片中的汉字呢？

大佬可以更新一下训练集的链接吗失效了

谢谢

你好，不知道能否提供训练代码呢

你好，不知道能否提供给小白训练代码呢，用您提供的数据集使用torch yolov3官方代码训练得到pt模型，model.load_state_dict(
torch.load(opt.weights_path, map_location="cuda:0" if torch.cuda.is_available() and opt.GPU else "cpu")) 这个位置会出错，不知道是什么原因

centos 上怎么跑这个模型啊

大佬 centos 服务器上怎么跑这个模型啊

语序是怎么识别的

您好，语序是怎么识别的

信息泄露？

本地drawing.py内存在铭感信息，还是瞎写的。。。。提醒一下

作者，可以传一份训练集学习一下吗

cnn训练

请问下，cnn文字的训练应该是迁移学习的吧，我尝试直接训练会有过拟合的问题，但是我找不到对应可以做迁移的模型

样本对如何生成

一般采用已经训练好的检测模型来生成样本对。是不是需要在yolov5中自己写呀？

大佬有训练代码吗

废贴发之后看明白了，主要是在对比概率那块

因为在理解title和target 对比概率的时候，在这点不太理解

people_chars_lm.klm训练集读取失败

Traceback (most recent call last):
File "kenlm.pyx", line 139, in kenlm.Model.init
RuntimeError: util\file.cc:74 in util::OpenReadOrThrow threw ErrnoException because `-1 == (ret = _open(name, 0x8000 | 0x0000))'.
No such file or directory while opening F:\系统爬虫学习\图片识别\model\people_chars_lm.klm

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
File "F:/系统爬虫学习/图片识别/model_two.py", line 11, in
from src import word_order
File "F:\系统爬虫学习\图片识别\src\word_order.py", line 35, in
model = kenlm.LanguageModel(kenlm_opt.model_path)
File "kenlm.pyx", line 142, in kenlm.Model.init
OSError: Cannot read model 'model/people_chars_lm.klm' (util\file.cc:74 in util::OpenReadOrThrow threw ErrnoException because `-1 == (ret = _open(name, 0x8000 | 0x0000))'. No such file or directory while opening F:\系统爬虫学习\图片识别\model\people_chars_lm.klm)
model_two 读取people_chars_lm.klm没有找到路径，但是我路径没错呀，大佬帮忙看一下

大佬没有linux环境的decryption依赖

大佬有了fastapi 部署上docker 发现 load.cp38-win_amd64.pyd 没有liunx的编译文件~~

models一直报错，请问什么原因呀

Traceback (most recent call last):
File "D:/我的工作/AirtestScripts2020/图像识别/Text_select_captcha-master/mode_one.py", line 10, in
from src import orientation
File "D:\我的工作\AirtestScripts2020\图像识别\Text_select_captcha-master\src\orientation.py", line 28, in
from src.utils.models import *
File "D:\我的工作\AirtestScripts2020\图像识别\Text_select_captcha-master\src\utils\models.py", line 125
f"conv_{module_i}",
^
SyntaxError: invalid syntax

看了一下格式觉得并没有问题啊！

极验的识别不出

大佬啥时候更新阿

import demo ModuleNotFoundError: No module named 'demo'

按要求版本，安装了numpy==1.18.5
torch==1.5.1
torchvision==0.6.1
tensorboard==1.14.0
matplotlib==3.3.0
pillow==7.2.0
selenium==3.141.0
requests==2.24.0
kenlm
这些库；
模型也已下载存放到Text_select_captcha-master\model 文件夹

试运行bilbil.py 发现报错 import demo ModuleNotFoundError: No module named 'demo'
请问是什么原因呢？

反馈缺陷 Bug：后端服务中调用的post方法得不到正确的数据结构

运行环境：python3.10

调用post方法时输入应该是字典，但是现在输入的是字符串；
查看clickon的代码，发现post里用了dict方法但是他已经被弃用了，所以我改了model_dump来把字符串转成字典，但是还是会报同一个错误

接口返回内容
{ "detail": [ { "type": "model_attributes_type", "loc": [ "body" ], "msg": "Input should be a valid dictionary or object to extract fields from", "input": "{\r\n \"dataType\":1,\r\n \"imageSource\":\"https://static.geetest.com/captcha_v3/batch/v3/55775/2023-12-14T17/word/9e636054c96d472a965546570a968c40.jpg?challenge=1d9bfa8c34a33e1ee8c509d43f200041\",\r\n \"imageID\":\"string\"\r\n}", "url": "https://errors.pydantic.dev/2.5/v/model_attributes_type" } ] }

报错内容INFO: 127.0.0.1:56558 - "POST /clickOn HTTP/1.1" 422 Unprocessable Entity