zhaipro / easy12306 Goto Github PK

View Code? Open in Web Editor NEW

2.9K 74.0 741.0 235 KB

使用机器学习算法完成对12306验证码的自动识别

License: Artistic License 2.0

Python 100.00%

deep-learning mathematics captcha 12306

easy12306's Introduction

easy12306

两个必要的数据集：

文字识别，model.h5
图片识别，12306.image.model.h5

识别器数据的下载地址：

python3 main.py <img.jpg>

我把设计思路写在维基中了：https://github.com/zhaipro/easy12306/wiki

如何？

~$ python3 main.py 2.jpg 2> /dev/null
电子秤
风铃        # 要找的是以上两样东西
0 0 电子秤  # 第一行第一列就是电子秤
0 1 绿豆
0 2 蒸笼
0 3 蒸笼
1 0 风铃
1 1 电子秤
1 2 网球拍
1 3 网球拍

识别前所未见的图片

具体的编号：texts.txt

~$ python3 mlearn_for_image.py 8.jpg
[0.8991613]  # 可信度
[0]          # 0 表示的就是打字机

什么？

只是想拿来识别12306的验证码？可以回顾3.0.0，使用相似图搜索。

easy12306's People

Contributors

Stargazers

Watchers

Forkers

willbi xaccc xyz8 ifzz sdgdsffdsfff lue828 wew2012 heihei2015 bensive neilyoung2008 7788kdd fswzb xty88645 feythin chenweihua solosuns fengh16 ck8275411 six-leo wccms zsy2504 zhyxu886 bigerteam c2726139513 dingmin75 jacobi2017 guanhe0 shiqiangtang edwardzeng kevinyzy1 kevinyzy freddyzeng venusaulis dllen zzymy daniel-007 skyformat99 kaikanertan ichengqf seminchen fei5156 508890 yzhbigdata meteorstone zhaohaao131 angrykobe wangsai0806 jicius zhoujiawei1993 goddessluboyan qq2737499951 hellozjf 583 zhenyizhao xieende jingshaoqi yexioy zhangyuteng sunmjin gitlinan 466152112 evwang wgwjifeng bottom-lover yuluozhao ieee820 lyndomiao qinannan douyayun ylcode3 ydcun leegcc kingking888 liuyibo2017 goy0695 ruoduan-hub zero0infinite 26597925 fengjixuchui futurebody loong2018 codedonkey55 awesome-archive ansvver sophia-396 lzgh maishede birdgun agentwx xtftbwvfp luawei1 peterzou awfeequdng 7478871 liangstone fanghongbo jarwin123 yuang1516 kuskyfei flagang

easy12306's Issues

深度学习的秒记

把这里的数据集用于测试，得出的结果：
统计学专家识别的正确率：0.9422140966882884
从统计学专家那里学来的深度学习模型的正确率：0.9811081335640064

统计学对剪纸的识别正确率只有64%，我猜是因为剪纸的种类太多啦。
而深度学习模型识别率最低的是挂钟：

1577/1577 [==============================] - 42s 26ms/step
[0.24407617484627453, 0.9302473050095117]

我猜是因为挂钟和钟表实在是难以区分。
关于钟表的识别力度：

1608/1608 [==============================] - 44s 27ms/step
[0.22922349847223036, 0.9359452736318408]

深度学习对跑步机的识别最有信心：

1564/1564 [==============================] - 43s 27ms/step
[0.0026093199646667294, 1.0]

可以以此证明学习后的神经网络具备识别前所未见的实力吗？
可以说仅1万张图片就够学习了吗？
能不能给机器更少的教材就让它学到有用的技能呢？
实际上它对于验证码的识别力度还可以，但对于真实世界照片的识别力度就没这么高了。

人工提供的验证集image.test.npz没有啊，只有image.npz还用不了

把image.npz的数据代入到mlearn_for_image.py的人工提供的验证集部分，
在new_test_x[idx] = cv2.resize(test_x[idx], (67, 67))会报错
File "mlearn_for_image.py", line 46, in load_data
new_test_x[idx] = cv2.resize(t, (67, 67))
TypeError: src is not a numpy array, neither a scalar

the model was not compiled. Compile it manually

E:\ProgramData\Anaconda3\lib\site-packages\keras\engine\saving.py:292: UserWarning: No training configuration found in save file: the model was not compiled. Compile it manually.
warnings.warn('No training configuration found in save file: '

运行mlearn.py的时候，出现这个错误，请问怎么解决，谢谢

我下载你的数据，自己跑跟你在线接口差距这么大？

你在线接口简直就是王者，我青铜都不算，我用的是12306.image.model.h5 最新的，和model.v2.0h5

百度网盘链接挂了

求更新

图片数据集中的错误，是我搞错了什么吗？

数据集

我在药片目录中发现了这个东西：

同时，也在茶盅中发现了跟它一模一样的图片。

pretreatement.py的函数download_image()中url失效了，不知道还有没有更新。

验证码有多个标签怎么训练？

验证有多个标签的时候，是不是不支持啊

error: (-215:Assertion failed) channels == 1 || channels == 3 || channels == 4 in function 'cv::imencode'

测试发现会报错，具体日志为：
error: (-215:Assertion failed) channels == 1 || channels == 3 || channels == 4 in function 'cv::imencode'

easy12306/baidu.py

Line 49 in d604e45

texts = load_data()

line49应修改为: texts,_ = load_data()

cann't deploy your easy122306 successfully on my PC

I just copied your programme and downloaded your datamodes(12306.image.model.h5,model.v3.0.h5) in accordance to your README guidance, unfortunately,a scrutable problem happened after I added datamodes to the same file where the rest of programme is stored .I will share the message that indicates error from python console.

Traceback (most recent call last): File "C:\Users\XM8\Desktop\easy12306-master\easy12306-master\main.py", line 60, in <module> main(sys.argv[1]) IndexError: list index out of range

zhaipro@localhost ~/easy12306> python3 mlearn.py
Using TensorFlow backend.
Train on 10047 samples, validate on 1117 samples
Epoch 1/30
[=] - 14s 1ms/step - loss: 1.9007 - acc: 0.5465 - val_loss: 0.5589 - val_acc: 0.8478
Epoch 2/30
[=] - 14s 1ms/step - loss: 0.2237 - acc: 0.9438 - val_loss: 0.1225 - val_acc: 0.9678
Epoch 18/30
[=] - 14s 1ms/step - loss: 8.1089e-06 - acc: 1.0000 - val_loss: 0.0216 - val_acc: 0.9937
Epoch 30/30
[=] - 14s 1ms/step - loss: 8.0525e-06 - acc: 1.0000 - val_loss: 0.0211 - val_acc: 0.9937

如何让统计学专家发挥更多的实力呢？

图片文件的命名规则：<类别>.<出现的次数>.(<在当前类别中出现的频率>).<索引>.jpg

索引只是用来防止文件重名的。

我大概估计得用于判断准确性的参数是：

出现次数必须大于15次，毕竟出现次数少，统计出来的值可信度也不够。
频率必须超过0.182，因为有某图片出现的次数足够多，但频率不够高，我猜测其原因可能是哈希算法出错了。