GPU训练

Question

<p dir="auto">作者您好，我使用您的crnn训练代码在cpu上运行会出现valueerror（weight或height需要大于0），经过修改trans.py中的参数可以解决这一问题。但使

courao · Answer

可以贴一下详细的错误信息吗

yhl-97 · Answer

我觉得应该还是trans.py对图像处理过程出了问题，可能输入的图像本身长或宽不够，造成resize后的图像长或宽小于等于了0。但是这应该如何修改呢？

yhl-97 · Answer

<p dir="auto"><a target="_blank" rel="noopener noreferrer nofollow" href="https://user-images.github

courao · Answer

一个简单粗暴的方法是在mydataset.py文件中把__getitem__中的代码加一个try catch，就比如用下面的代码替换一下

courao · Answer

emmm插入的代码不知道为啥排版不太好，重新发一下吧：
def getitem(self, index):
try:

yhl-97 · Answer

谢谢您的指点，不过我加入了异常处理后又出现了新的错误，您能否帮我看一下是什么原因?我还需要修改哪些地方？

courao · Answer

这个问题应该是在验证集上测试的时候报的错，看着似乎是模型时cpu上的输入的图像是gpu上的造成的，你是在cpu上训练的吗？
正常在GPU上训练的话，不会出现这样的

yhl-97 · Answer

<p dir="auto">不好意思，我发现config没有调回来，这应该是CPU上训练的结果，我如果在CPU上训练需要对测试的代码进行什么改动呢？我现在GPU出现了一些状况没办法输出运行结果，等拿到

courao · Answer

<p dir="auto">在训练代码中找到这一行num_correct,  num_all = val_model(config.val_infofile,net,True,log_file='co

yhl-97 · Answer

谢谢作者大佬，CPU上的运行已经没有问题了，但是在GPU上训练时输入某些图片还会出错，我把一张出错的图片放在下面，您能帮我看一下为什么会报错吗？

courao · Answer

从图片上看不出问题啊，报的什么错呢？异常处理也解决不了吗？

yhl-97 · Answer

因为我是连服务器上运行的，一到这种图片服务器就把我kill了，而且没有错误信息，用nohup指令也没法把错误信息输出来。您能否试一下这张图片有没有什么问题？非常感谢！

from ocr.pytorch.

courao · Answer

你好，我这边暂时也没有空余的GPU服务器没法再GPU上测试，不过我在本地测试了一下这张图似乎没啥问题，我在想是不是因为路径什么的有错误，其他的我也说不上来什么原因。

yhl-97 · Answer

好的，谢谢您的帮助，我再想想办法。不过奇怪的是这张图片在CPU模型里没有问题，到了GPU就出问题了。

yhl-97 · Answer

大佬您好，我让朋友帮我测试了一下，他遇到了一个奇怪的问题，但是感觉这个错误比较奇怪，如果是这种错误感觉我之前不可能跑通，为什么会遇到这种问题呢？

yhl-97 · Answer

顺带一问，我在CPU训练的检测部分遇到了outputsize过小的问题，这有办法解决吗？

courao · Answer

大佬您好，我让朋友帮我测试了一下，他遇到了一个奇怪的问题，但是感觉这个错误比较奇怪，如果是这种错误感觉我之前不可能跑通，为什么会遇到这种问题呢？<

courao · Answer

顺带一问，我在CPU训练的检测部分遇到了outputsize过小的问题，这有办法解决吗？

yhl-97 · Answer

作者大佬您好，我在cpu上训练时基本上不会出现错误，但是在训练到第二个epoch时速度就会变得非常慢，基本上处在停滞状态，这可能是因为什么引起的？

from ocr.pytorch.

GPU训练 about ocr.pytorch HOT 19 OPEN