Git Product home page Git Product logo

ailab's Introduction

ailab

Real Cascade U-Nets for Anime Image Super Resolution

demo-video.mp4

click 🌟 Real-CUGAN🌟 for details.

ailab's People

Contributors

andychen2005121 avatar chikage0o0 avatar justin62628 avatar kidonng avatar lj1995-computer-vision avatar nihui avatar spenserblack avatar terry-mao avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ailab's Issues

操作失败

image
真人图片就行,二次元图片就不行

漫画字体放大得很奇怪

如下图,分别是原图, 使用waifu2x 1倍降噪, 使用cugan 1倍降噪 放大的结果
虽然cugan在人物上效果比waifu2x好 但是字体不好读
ori
waifu2x
cugan

无法使用?

cpu是i5 4570,指令集都支持,内存8gddr3 显卡950貌似不支持,进入软件提示用cpu跑了,但是总是错误。
最新的有gui的补帧可以正常运行,但是图片超分一直显示错误,由于是之前的事,最近比较忙,具体代码就没空看了,记得是缺失了什么。
不过,本人是小白,没什么基础知识,也就是本着好奇心下载下来用了一下,所以无法运行可能是我的问题,但是老版waifu是可以用的,当然无gui的版本也用过,都一样,提示有什么not found。
至于使用web版时提示Error while cloning Space repository
如果是我的问题,那抱歉打扰了,但是我认为兼容性的优化还是很重要的,能力有限,只能说这么多了,希望能越来越好。

ncnn 版本

你好呀!呼呼呼~
请问,会提供ncnn版本吗?
兼容amd/intel/macos/linux等平台

有能用於Colab的方案嗎?

問就是沒有高階顯卡可以玩,想到了Google Colab一堆 K80,T4,P4和P100
不曉得能不能簡易的在colab上跑完後輸出儲存到雲端硬碟

手机版 电脑版分别

请问我在手机弄完后 把影片搬上电脑观看 会影响解析度吗 或者有没有效果会不一样

数据集问题

Hi, 请问下训练所使用的数据集是哪个是公开数据集么, 还是自己收集的动画数据

一些问题

为何1倍非超分反而不计划支持降噪?不超分也不降噪好像就是原图吧。。感觉好像降噪的定义和原来waifu2x不太一样,现在对于降噪的定义是什么?

现在这个“景深虚化”的追求感觉对于主观上的清晰度会有影响,未来会不会有锐度更高的模型?

另外快速模型势必要改架构吧,反正大概率也没法无缝兼容原来waifu2x的工程,是不是要考虑扔掉cunet然后再往里扔点这几年的新trick?比如classsr,ms3conv,ghostnet,动态卷积甚至是vit这种“dssq”架构

No module named 'torch.torch_version'

Platform: Windows x64 1909
CUDA Version: 11.4
System Python: 3.7
Software Version: RealCUGAN_for_win10_torch1.10.0cu111

run go.bat, got error info: "from .torch_version import version as version
ModuleNotFoundError: No module named 'torch.torch_version'"

希望能尽快提供快速模型

实测,使用保守3倍模型,升采样scale=2,
在1650移动版上,受限于显存开一个线程,速度在0.22fps
在970M 6G上,开两个线程,速度0.29fps
在K80 24G上,开一个/两个线程,速度均为0.3fps左右
这样的速度对于低配用户还是不太够用啊qwq

模型对于“长得像”Artifacts的内容来说存在过度处理

目前出于个人习惯,主要还是使用的waifu2x-caffe进行操作,不过在处理特定图片的时候,发现了一个很有意思的现象。
例如,Pixiv 作品ID:90795073,原图有一种很明显故意做出来的Artifacts,类似于纸张的模糊效果或者说相机噪点。也许是模型认为这种效果是真的噪点,且标准版自带denoise level 3,所以把它给抹掉了。
原图:
QQ截图20220215080405

放大后:
QQ截图20220215080452

个人建议如果能放出一个denoise level 0的waifu2x-caffe模型是最好的,或者希望能够实现waifu2x-caffe模型对于降噪度的自由调整。因为就本人而言,我是不喜欢将明显低于1080P且明显存在降质的图片拉到4K的,因此在图片原本信息量足够的情况下,不需要太多AI介入的部分。

Edit:
尝试使用了官方GUI进行操作,在2x-no-denoise的情况下,虽然脸部细节得到了更多保留,但原本的模糊纹理依旧存在严重涂抹痕迹,以至于出现色块现象(对比头发、胸口、手臂),因此判断并非单纯waifu2x模型默认3级降噪的问题。
QQ截图20220215084351

多次对比后,总体还是感觉waifu2x模型的处理会更加“过分”一些,甚至连一些虚化的东西都会被强行清晰化,而官方GUI则不存在这个问题。但对比waifu2x-caffe官方模型,人工噪点的处理还是会比Real-CUGAN更好一些。

FileNotFoundError

新手请见谅
运行出现FileNotFoundError: [Errno 2] No such file or directory: 'weights_v3/up2x-latest-no-denoise.pth'
要怎么改

#超分倍率
scale=2

#参数路径,可更换
model_path2 = "weights_v3/up2x-latest-no-denoise.pth"

model_path3 = "weights_v3/up3x-latest-denoise3x.pth"
model_path4 = "weights_v3/up4x-latest-denoise3x.pth"

以上是我填的一部分

有没有兴趣合作搞事情~

@lj1995-computer-vision 大佬你好 ( ・∀・)っ,这里是柴,一名老二刺螈 + 萌新 UP . 同时也是国产深度学习框架 天元 MegEngine 小组的看门柴,目前我在四处溜达给 Megengine 找有趣的应用,尝试进行合作来验证框架的训练推理落地能力(不论是想做 demo 还是工业级部署都可以试试,旷视内部用的就是这套自研框架,有极致的性能优化,训推全流程中的很多坑都趟通了),感兴趣的话可以搓我的狗头。

话说这个 repo 以后是阿 B 以后放各种 AILab 模型的地方嘛,期待 \( ̄▽ ̄)/.

帧率FPS问题

原视频:
帧率模式 : 动态帧率 (VFR)
帧率 : 24.431 FPS
最低帧率 : 14.985 FPS
最高帧率 : 119.880 FPS
原始帧率 : 29.970 (30000/1001) FPS

转出来的视频:
帧率模式 : 恒定帧率 (CFR)
帧率 : 119.880 (119880/1000) FPS

转出来的视频画面变得很快,请问应该改哪里的参数?
另外建议音频不用转码,直接复制原来的音轨。

-1降噪条件下 某些图片反而变模糊

使用的是ncnn版本 amd显卡
触发原因不清楚 整卷漫画偶尔会有几张图片出现这个情况 重复尝试依旧 换到-1以上的降噪就没有这个问题
使用-1降噪的主要原因是这个倍数的降噪对画风影响低,字体也不会变奇怪,还能消除原图中字体周围的噪点,使画面更干净
我只能贴几张有问题和没问题的图来说明
有该问题的原图:
018
-1降噪:
018_W2xEX_1x_-1n_Compressed_jpg
有该问题的原图:
077
-1降噪:
077_W2xEX_1x_-1n_Compressed_jpg
其他正常的原图:
070
-1降噪:
070_W2xEX_1x_-1n_Compressed_jpg

报错

video_upscaler=VideoRealWaifuUpScaler(nt,n_gpu,scale,half,tile,p_sleep,decode_sleep,encode_params,cache_mode,alpha)

video_upscaler=VideoRealWaifuUpScaler(nt,n_gpu,scale,half,tile,p_sleep,decode_sleep,encode_params,cache_mode,alpha)
def init(self,nt,n_gpu,scale,half,tile,cache_mode,p_sleep,decode_sleep,encode_params):

位置参数传递位置错误 引发报错

请问如何强制使用CPU运行

在云服务器上使用时观察到没有Nvidia驱动时可以使用CPU来跑

那么请问在本地环境下如何强制使用CPU呢?(因为CPU虽然慢但是可用,在下的显卡是亮机卡,一跑就爆显存)

不论怎么调都提示显存不足

版本:RealCUGAN_for_win10_torch1.10.0cu111
模型:up4x-latest-conservative.pth
终端:win10,笔记本电脑 显卡 2080SUPER
CUDA版本:11.6
_CudaDeviceProperties(name='NVIDIA GeForce RTX 2080 Super', major=7, minor=5, total_memory=8191MB, multi_processor_count=48)


设置:tile=0
half=False
scale:4
提示:RuntimeError: CUDA out of memory. Tried to allocate 4.10 GiB (GPU 0; 8.00 GiB total capacity; 3.19 GiB already allocated; 2.93 GiB free; 3.21 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF


设置:tile=4
half=False
scale:4
提示:RuntimeError: CUDA out of memory. Tried to allocate 280.00 MiB (GPU 0; 8.00 GiB total capacity; 6.12 GiB already allocated; 0 bytes free; 6.17 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF


设置:tile=4
half=True
scale:4
提示:RuntimeError: CUDA out of memory. Tried to allocate 138.00 MiB (GPU 0; 8.00 GiB total capacity; 5.56 GiB already allocated; 0 bytes free; 6.31 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

自制 GUI 图形用户界面 # I made a GUI for Real-CUGAN

我自制的 图片视频GIF 超分辨率+补帧 GUI, 支持调用多种超分辨率和补帧方式

Waifu2x-Extension-GUI 已经从 v3.87.12-beta 版本开始支持Real-CUGAN了, 内置, 解压安装打开即用.

GUI Download: https://github.com/AaronFeng753/Waifu2x-Extension-GUI/releases

如果贵开发组以后出NCNN-Vulkan版本我也会尽量第一时间添加支持, 或许可以能帮您省去您自己写UI的麻烦了😁

如果您觉得我这个GUI做的还行, 可以Readme加个链接吗? 谢谢

@lj1995-computer-vision

最近的大包后缀有点问题

最近的大包后缀为“.zip_2.001”需要改成“.zip.001”才能和“.zip.002”一起正常解压。希望后续更正。

关于屏幕字对景深识别的干扰和超范围 RGB32f 的处理

首先非常感谢能够公开这个模型。以下是我的一些测试反馈

测试环境

  • Windows 11
  • VapourSynth-classic R57
  • ONNX Runtime
  • GPU 为 RTX 3070 Ti 8G
  • 测试模型非注明均为 2x 不降噪

1. 屏幕字对景深识别的干扰

real-cugan 相对于 realesrgan 来说会自动识别保护景深场景,这是非常值得肯定的,但是据我观察,识别的准确度还是有待提升(不过这东西难免出点错)。另外识别到景深场景时的效果和平常的效果非常不同,平常的锐度类似于 realesrgan ,而景深场景的锐度略弱于 waifu2x。这种差异当使用分块时会非常显著,比如一个1080p input 使用了 4 个 tiles,一帧画面中的不同分块的去雾策略会不一样。
(《在魔王城说晚安》,EP2,第 3109 帧)
cugan_4tiles_3109

注意画面的上下两部分,有明显分界。

另外尝试了 conservative 版,依然是 tiles=4
cugan_con_3109

可看出依然有明显分界

这一问题在有屏幕字的画面上发生的很频繁,大概是把屏幕字背后的画面当作景深了,其他分块没有字的就正常处理。要解决嘛就是不分块2333。
cugan_3109

可以看到没有明显分界,整个画面相对来说都比较糊。

附上源

src_3109

附上 waifu2x 的
waifu2x_3109

还有realesrganv2的
realesrgan_3109

但就算是在一个分块内,有时候有屏幕字的部分和周围的画面也有明显分界。

(《来自风平浪静的明天》,EP2,第32230帧)
test_32230

附上源
src_32230

2. 超过 RGB32f 范围的处理

AI 训练过程中大概并没见过这种东西吧2333,常见于 full range 的 YUV 但是 metadata 错标为了 limited,或者是 full range YUV 的图片(比如JPEG)被转换滤镜错误的当成了 limited,另外就算是正常的画面中也有几个位置超过了 limited YUV 范围(比如 limited 的画面 full range 的屏幕字,典型例子是上面的《来自风平浪静的明天》的白字超过了235,达到了255;《在魔王城说晚安》的屏幕字黑边低于16,达到了0。不过我在这类小范围的、放大倍率低的情景下并未发现显著影响),这种东西常规的滤镜比如 zimg 转换为 RGB integer 时会自动 clamp 到范围内,但是转换为浮点 RGB 就会超过 1。保守起见有些人会手动来一个 0 1 clip 。这种越界值 real-cugan 的处理非常奇怪。。。本来是该锐化的画面,real-cugan会把它变糊,甚至越界更严重或者放大倍数更高的话会出现负的值,waifu2x-cunet 的锐度没有影响,但是也会出现奇怪的瑕疵,而 realesrganv2 的效果则没有明显影响。

发现这一问题是我的误操作,拿 repo 里的 vs demo 直接读了一个 JPEG,但是 demo 里面 用了 mvf 来转换 RGB32f,它根本不读 frameprop,看见 YUV 就当成 limited 喂给 fmtcov 了。(是个非常经典的问题,需要手动指定 range 和 matrix)

原图为 pid-31765856

转换后的源目视效果是这样

我姑且导出来了一个浮点的 TIFF 格式的图片,这是经过错误的矩阵转换到 RGBS 后,部分像素越界的源,我已知的源滤镜中 imread 可以正确读取
image000.zip

(以下图我是从qq群聊天记录里面捡回来的,虽然被 qq 压成了 yuv420p8 的 jpeg 但是目视效果基本相同)

real-cugan 4x 效果是这样的

可以看出有明显的负的值被 clamp 成 0 了

取色器中显示最小值达到了 -7 。。。。

这是 2x 可以看出画面明显变糊。

waifu2x-cunet 4x
QQ图片20220210014922

线条周围出现瑕疵。注意这并不是被 qq 二压的(

real-esrganv2 4x

QQ图片20220210014929
没有任何瑕疵,和用 0 1 clip 处理越界后的源没有明显区别。

虽然这种越界值并不是很常见,而且手动加个 clip 就能解决,但毕竟 b 站应该是要用这个东西实际投入生产的,也算是个提醒?毕竟real-cugan 的这个表现太奇怪而且相对来说更严重更明显。。

VapourSynth 用户 在把图像喂给类似的 AI 滤镜之前,转换为 RGBS 后,尽管确认源的 YUV 范围没有很大越界,但也要最好手动加一个 rgbs.akarin.Expr("x 0 1 clip") 或者 rgbs.std.Expr("x 0 max 1 min")


以上是我个人的简单反馈,再次感谢。

当前模型似乎存在轻微色差现象

测试了多组图片均发现有此现象,表现为高饱和度部分 G、B 通道会比原图稍微低一点点(大概低 1~5 的样子,B 通道比较明显)

ESRGAN 也有这个问题,但轻微得可以忽略不计,而 CUGAN 就比 ESRGAN 显著一些。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.