1.create_ac.py
创建验证码,构建训练集合,保图片名称为验证码字符
2.preimage.py和clean_data.py
清洗图片数据,包括灰度化-二值化-去燥-字符切割
分割字符方法不是很准确,忽略识别出字符不是4个的情况
3.classifier.py
训练多分类器用于识别验证码,实验最终采用SVM 线性核取得了最好效果
4.distinguish.py
识别验证码文件,输出预测验证码
1.字符切割使用将图片映射到一个维度上的方法,不能完全去除噪声点,不是很准确,下一步考虑使用边缘检测的方法提高分割的准确度
2.没有考虑字符倾斜问题,应加入字符旋转
3.分类器特征使用所有图片特征,应该先降维,可能回去的好的效果,并提升计算效率
4.尝试CNN进行图片识别
5.尝试对预测值进行校正,比如判定这个词语是否有意义,