Comments (4)
1、有关1x我更烦恼的是怎么保留纹理,因为最低级别的降噪程度目前也自带一定纹理丢失,所以很可能训练的时候就不加噪了(除非想到了其他的保留纹理的方式,那就保留和2x3x4x一样的档位设置)。根据我的经验,为了纹理的保留,有必要再大尺度下进行计算(学界比较传统的认知是,在LR尺度下做主力运算性价比最高)。
参数的命名是根据训练加噪的程度来的,没有根据实际的降噪程度来命名,你提到的命名问题(有没有必要以实际降噪效果、程度作为命名),我之后想一下
2、锐度和纹理保留是一个很难平衡的trade-off,是可以继续加锐,因为我认为现在锐度已经很高(可能都过于高了)了,所以没有训练更高锐度的档位。现在的锐度已经观察到一些bad case了。
3、我调研过一些轻量化的训练方法和模块,不过等新的轻量级模型出来,大概率就不叫CUGAN了(因为结构没法再基于CUNet了)。
(1)我很喜欢ClassSR这种原理简单又有用的idea,但是他不适用CUNet结构,因为切patch了看不到全局,会丢失景深区域识别和纹理保留的特性;
(2)MS3Conv本质上是一种结构上的改进。它的ab对照数据里,CARN是2018出的一篇指标很弱的baseline(SRResNet也是指标很弱的,baseline弱,提点很容易),文章2020年发表,参数/计算量上的提升其实不一定追得上2年的时代差带来的进步;另外太过复杂的结构会降低推理的效率(ESRGAN里面的RRDB就是一个非常正面的例子,结构简单有效,推理效率高),比起Flops我还是更想看到延迟或者吞吐这样的指标;比指标,我希望是看到以RCAN作为baseline的提升。
(3)改ViT的话,推理速度可能会比ESRGAN更慢。ViT系模型结构是实际推理效率远低于你能在论文里看到的FLOPS和参数量指标的结构,跑过的都懂。固然可以通过优化推理框架来提升ViT的推理速度,但是投入相同的研究成本,VGG也可以变得伟大。ViT的更大的意义我认为是提高领域的指标上限(从而开放pretrain模型给小数据集fine tune),条件是超大的训练集,代价是巨大无比,不过这个仓库不玩刷点哈~比较偏向实际,以及要多照顾大众普通玩家;
(4)GhostNet用在图像识别上是有效的,但是我以前在low-level领域用他代替过conv跑过实验,掉点了,比较遗憾。
悄悄告诉你,根据我的经验,对于二次元超分来说,网络结构不是最重要的,PSNR也不是很重要(如果有更好的衡量动画重建质量的指标,求科普),我们其实应该去思考一些更本质的东西。
from ailab.
1、有关1x我更烦恼的是怎么保留纹理,因为最低级别的降噪程度目前也自带一定纹理丢失,所以很可能训练的时候就不加噪了(除非想到了其他的保留纹理的方式,那就保留和2x3x4x一样的档位设置)。根据我的经验,为了纹理的保留,有必要再大尺度下进行计算(学界比较传统的认知是,在LR尺度下做主力运算性价比最高)。 参数的命名是根据训练加噪的程度来的,没有根据实际的降噪程度来命名,你提到的命名问题(有没有必要以实际降噪效果、程度作为命名),我之后想一下 2、锐度和纹理保留是一个很难平衡的trade-off,是可以继续加锐,因为我认为现在锐度已经很高(可能都过于高了)了,所以没有训练更高锐度的档位。现在的锐度已经观察到一些bad case了。 3、我调研过一些轻量化的训练方法和模块,不过等新的轻量级模型出来,大概率就不叫CUGAN了(因为结构没法再基于CUNet了)。 (1)我很喜欢ClassSR这种原理简单又有用的idea,但是他不适用CUNet结构,因为切patch了看不到全局,会丢失景深区域识别和纹理保留的特性; (2)MS3Conv本质上是一种结构上的改进。它的ab对照数据里,CARN是2018出的一篇指标很弱的baseline(SRResNet也是指标很弱的,baseline弱,提点很容易),文章2020年发表,参数/计算量上的提升其实不一定追得上2年的时代差带来的进步;另外太过复杂的结构会降低推理的效率(ESRGAN里面的RRDB就是一个非常正面的例子,结构简单有效,推理效率高),比起Flops我还是更想看到延迟或者吞吐这样的指标;比指标,我希望是看到以RCAN作为baseline的提升。 (3)改ViT的话,推理速度可能会比ESRGAN更慢。ViT系模型结构是实际推理效率远低于你能在论文里看到的FLOPS和参数量指标的结构,跑过的都懂。固然可以通过优化推理框架来提升ViT的推理速度,但是投入相同的研究成本,VGG也可以变得伟大。ViT的更大的意义我认为是提高领域的指标上限(从而开放pretrain模型给小数据集fine tune),条件是超大的训练集,代价是巨大无比,不过这个仓库不玩刷点哈~比较偏向实际,以及要多照顾大众普通玩家; (4)GhostNet用在图像识别上是有效的,但是我以前在low-level领域用他代替过conv跑过实验,掉点了,比较遗憾。
悄悄告诉你,根据我的经验,对于二次元超分来说,网络结构不是最重要的,PSNR也不是很重要(如果有更好的衡量动画重建质量的指标,求科普),我们其实应该去思考一些更本质的东西。
感谢长回复
1x训练时输入那边不加噪也不下采样还剩什么呢?是加一些传统噪声以外的artifact吗
classsr切patch看不到全局的事。。其实cugan的ncnn实现那边已经有个gap sync了(这边的实现没试过不知道orz),就算分了tile也能借助gap的真·全局感受野得到正确的景深信息不会再出block了,如果你们算力和头发足够薅的话也可以再深挖一下?(其实还有个脑洞,patch切法好像也可以偷师视频编解码那边二叉树宏块划分的想法,大片一致纹理直接划一个块内之类的)
ghost操作按他们的用法本来就会造成网络容量的下降,掉点也。。挺正常吧(除非是当加入新特征的用法提了容量还掉点就怪了)
ghostsr没有直接用depthwise conv,换成shift操作了,看实验部分好像掉的也不多,计算量下降挺明显
(刚才不小心手贱close了,其实还有其它我看见过觉得可能有用的trick可是这里地方太小我写不下(x
from ailab.
1、有关1x我更烦恼的是怎么保留纹理,因为最低级别的降噪程度目前也自带一定纹理丢失,所以很可能训练的时候就不加噪了(除非想到了其他的保留纹理的方式,那就保留和2x3x4x一样的档位设置)。根据我的经验,为了纹理的保留,有必要再大尺度下进行计算(学界比较传统的认知是,在LR尺度下做主力运算性价比最高)。 参数的命名是根据训练加噪的程度来的,没有根据实际的降噪程度来命名,你提到的命名问题(有没有必要以实际降噪效果、程度作为命名),我之后想一下 2、锐度和纹理保留是一个很难平衡的trade-off,是可以继续加锐,因为我认为现在锐度已经很高(可能都过于高了)了,所以没有训练更高锐度的档位。现在的锐度已经观察到一些bad case了。 3、我调研过一些轻量化的训练方法和模块,不过等新的轻量级模型出来,大概率就不叫CUGAN了(因为结构没法再基于CUNet了)。 (1)我很喜欢ClassSR这种原理简单又有用的idea,但是他不适用CUNet结构,因为切patch了看不到全局,会丢失景深区域识别和纹理保留的特性; (2)MS3Conv本质上是一种结构上的改进。它的ab对照数据里,CARN是2018出的一篇指标很弱的baseline(SRResNet也是指标很弱的,baseline弱,提点很容易),文章2020年发表,参数/计算量上的提升其实不一定追得上2年的时代差带来的进步;另外太过复杂的结构会降低推理的效率(ESRGAN里面的RRDB就是一个非常正面的例子,结构简单有效,推理效率高),比起Flops我还是更想看到延迟或者吞吐这样的指标;比指标,我希望是看到以RCAN作为baseline的提升。 (3)改ViT的话,推理速度可能会比ESRGAN更慢。ViT系模型结构是实际推理效率远低于你能在论文里看到的FLOPS和参数量指标的结构,跑过的都懂。固然可以通过优化推理框架来提升ViT的推理速度,但是投入相同的研究成本,VGG也可以变得伟大。ViT的更大的意义我认为是提高领域的指标上限(从而开放pretrain模型给小数据集fine tune),条件是超大的训练集,代价是巨大无比,不过这个仓库不玩刷点哈~比较偏向实际,以及要多照顾大众普通玩家; (4)GhostNet用在图像识别上是有效的,但是我以前在low-level领域用他代替过conv跑过实验,掉点了,比较遗憾。
悄悄告诉你,根据我的经验,对于二次元超分来说,网络结构不是最重要的,PSNR也不是很重要(如果有更好的衡量动画重建质量的指标,求科普),我们其实应该去思考一些更本质的东西。感谢长回复 1x训练时输入那边不加噪也不下采样还剩什么呢?是加一些传统噪声以外的artifact吗
classsr切patch看不到全局的事。。其实cugan的ncnn实现那边已经有个gap sync了(这边的实现没试过不知道orz),就算分了tile也能借助gap的真·全局感受野得到正确的景深信息不会再出block了,如果你们算力和头发足够薅的话也可以再深挖一下?(其实还有个脑洞,patch切法好像也可以偷师视频编解码那边二叉树宏块划分的想法,大片一致纹理直接划一个块内之类的)
ghost操作按他们的用法本来就会造成网络容量的下降,掉点也。。挺正常吧(除非是当加入新特征的用法提了容量还掉点就怪了) ghostsr没有直接用depthwise conv,换成shift操作了,看实验部分好像掉的也不多,计算量下降挺明显
(刚才不小心手贱close了,其实还有其它我看见过觉得可能有用的trick可是这里地方太小我写不下(x
1、你可以看下Real-ESRGAN的论文,劣化方式和pipeline是有很多类型和组合的,加噪声只是其中一个
2、ncnn-cugan的gap sync,cugan的不同patch,用的同一套参数;classsr的不同patch,用的是不同大小的网络结构和参数,怎么sync呢
3、如果没记错的话,我channel double了的
from ailab.
1、有关1x我更烦恼的是怎么保留纹理,因为最低级别的降噪程度目前也自带一定纹理丢失,所以很可能训练的时候就不加噪了(除非想到了其他的保留纹理的方式,那就保留和2x3x4x一样的档位设置)。根据我的经验,为了纹理的保留,有必要再大尺度下进行计算(学界比较传统的认知是,在LR尺度下做主力运算性价比最高)。 参数的命名是根据训练加噪的程度来的,没有根据实际的降噪程度来命名,你提到的命名问题(有没有必要以实际降噪效果、程度作为命名),我之后想一下 2、锐度和纹理保留是一个很难平衡的trade-off,是可以继续加锐,因为我认为现在锐度已经很高(可能都过于高了)了,所以没有训练更高锐度的档位。现在的锐度已经观察到一些bad case了。 3、我调研过一些轻量化的训练方法和模块,不过等新的轻量级模型出来,大概率就不叫CUGAN了(因为结构没法再基于CUNet了)。 (1)我很喜欢ClassSR这种原理简单又有用的idea,但是他不适用CUNet结构,因为切patch了看不到全局,会丢失景深区域识别和纹理保留的特性; (2)MS3Conv本质上是一种结构上的改进。它的ab对照数据里,CARN是2018出的一篇指标很弱的baseline(SRResNet也是指标很弱的,baseline弱,提点很容易),文章2020年发表,参数/计算量上的提升其实不一定追得上2年的时代差带来的进步;另外太过复杂的结构会降低推理的效率(ESRGAN里面的RRDB就是一个非常正面的例子,结构简单有效,推理效率高),比起Flops我还是更想看到延迟或者吞吐这样的指标;比指标,我希望是看到以RCAN作为baseline的提升。 (3)改ViT的话,推理速度可能会比ESRGAN更慢。ViT系模型结构是实际推理效率远低于你能在论文里看到的FLOPS和参数量指标的结构,跑过的都懂。固然可以通过优化推理框架来提升ViT的推理速度,但是投入相同的研究成本,VGG也可以变得伟大。ViT的更大的意义我认为是提高领域的指标上限(从而开放pretrain模型给小数据集fine tune),条件是超大的训练集,代价是巨大无比,不过这个仓库不玩刷点哈~比较偏向实际,以及要多照顾大众普通玩家; (4)GhostNet用在图像识别上是有效的,但是我以前在low-level领域用他代替过conv跑过实验,掉点了,比较遗憾。
悄悄告诉你,根据我的经验,对于二次元超分来说,网络结构不是最重要的,PSNR也不是很重要(如果有更好的衡量动画重建质量的指标,求科普),我们其实应该去思考一些更本质的东西。感谢长回复 1x训练时输入那边不加噪也不下采样还剩什么呢?是加一些传统噪声以外的artifact吗
classsr切patch看不到全局的事。。其实cugan的ncnn实现那边已经有个gap sync了(这边的实现没试过不知道orz),就算分了tile也能借助gap的真·全局感受野得到正确的景深信息不会再出block了,如果你们算力和头发足够薅的话也可以再深挖一下?(其实还有个脑洞,patch切法好像也可以偷师视频编解码那边二叉树宏块划分的想法,大片一致纹理直接划一个块内之类的)
ghost操作按他们的用法本来就会造成网络容量的下降,掉点也。。挺正常吧(除非是当加入新特征的用法提了容量还掉点就怪了) ghostsr没有直接用depthwise conv,换成shift操作了,看实验部分好像掉的也不多,计算量下降挺明显
(刚才不小心手贱close了,其实还有其它我看见过觉得可能有用的trick可是这里地方太小我写不下(x1、你可以看下Real-ESRGAN的论文,劣化方式和pipeline是有很多类型和组合的,加噪声只是其中一个
2、ncnn-cugan的gap sync,cugan的不同patch,用的同一套参数;classsr的不同patch,用的是不同大小的网络结构和参数,怎么sync呢
3、如果没记错的话,我channel double了的
看了下论文,去掉noise和downsample之后就只剩blur和jpeg了,1x的计划就是专心去模糊和去块不管噪声了吗?
但实际上我之前手头确实见到过日历扫图的情况,分辨率超高但杂色非常严重,几个卷积算法全都扑街,最后用ps的去杂色把杂色去掉了但变得非常模糊(甚至ps这个算法自己就有非常严重的切割线就很迷),1x的降噪去杂色应该也是有应用面的
不同分支出来的特征图送到公用的se之前加个1x1卷积统一一下channel数目再gap会不会有用?se出来的向量也改成给不同模型用不同的参数(
或者说把控制分支规模的方式从修改宽度改成修改深度,改分组卷积之类不修改特征图通道数的方式构建小分支做提速也有希望能跨模型共用se
不过多个模型共用一套se总感觉训练上会出幺蛾子
from ailab.
Related Issues (20)
- Alpha值在哪里修改?还有就是新版pro模型是5月更新的,githubrelase只有2月的版本。提前谢谢解答 HOT 1
- 是否可以依据这些功能,做一个模糊视频2高清播放器?
- 超分视频时,使用moviepy导出音频会有音质损失 HOT 1
- 什么时候更新啊 HOT 2
- linux下面运行出现了错误,windows却可以运行虽然会有点bug
- 该升级版本了 it's time to upgrade torch and cuda
- 问一下本地怎么跑出网页demo里的效果。 HOT 1
- 关于视频超分的加快想法 HOT 2
- 无法使用CPU进行超分 HOT 1
- guide to use vs-mlrt cuda with Real-CUGAN Pro HOT 1
- 请问oom在哪修改 max_split_size_mb 的值?
- PermissionError: [WinError 5] 拒绝访问。已经给了管理员权限,为什么出现该问题?
- 制作了集合torch2.0等更新版内容的绿化包,有没有开发者来联系一下 HOT 2
- 请问大佬,linux下使用方法
- 致B站CEO陈睿的一封公开信 HOT 1
- 建议添加使用GPU做视频编解码
- tensorflow实现 HOT 1
- Colab载入模型报告网络参数块形状错误
- 异常闪退应该如何排查
- Alpha 参数的处理也许有误
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from ailab.