Real Cascade U-Nets for Anime Image Super Resolution
ailab's Introduction
ailab's People
Forkers
lwd-temp keprice pfc1999 shaohan0228 koileo-fork-plan remiferia adlsh4869 dmsama dst1213 fumiama archsoul snowmikulive zhuomingliang z1137254268 kaiqiangweinisongxing baixiongjun chancat87 insmoin kontori lj1995-computer-vision ew-wang gavinljj alexiaveronica mhbalthasar airzhangfish gsyx666 nightli110 bearx superowner bluescale007 alex-yiwang ygexe baobao323 e1100x yaalaasuoo yeyeyeping zhi-ming-shen shizuku-neko road0001 whitestorys wewan wuzerun-888 zzyydtc hyw-dev qgdyyg amirhosn84 huangweiboy2 justinjohn0306 donlinglok xrosliang 1056674754 dickmak kenair singlag 18724799167 thecry7414 zhuweideng randomrain crackercat zxysm dfmjndm hugocc1 fletin qyh214 asker1982 pieceleaf equati0n fox0618 david187 jesse3692 neophack songhx xiaolongguo kagatron ultramarinesky miblue119 sfa170001 presleylee pyraaryp djchord jocker08 glqf zt706 fire-ice andychen2005121 eshont candycandy-rixh cheng07-python orchidsd fbtjxc jamesthesnake lifeisstrange whitelonely lumina-z w1105hx e1xp fengyanlin yuasds angelbaba yosakurasakuyaailab's Issues
某些场景下存在非常严重的涂抹情况
输出图像有问题
沙发
先收藏在说
480P老动画放大后的眼部的处理问题
低显存显卡在设置tile后依旧爆显存
VapourSynth 导入后能否开启单卡多线程?
在VapourSynth导入后未发现线程的选项,请问是否能开启显卡的多线程?如果没有的话,希望大佬能够加入此模式。谢谢
操作失败
About the license for this models
Thank you for sharing your great code. 😺
What is the license for this model? I'd like to cite it to the repository I'm working on if possible, but I want to post the license correctly.
https://github.com/PINTO0309/PINTO_model_zoo
Thank you.
requirements and runtime
Please provide a requirements.txt.
If possible, a dockerfile/docker-compose could be nice.
运行报错
训练数据集后续会公开吗?
RT
支援AMD的GPU嗎?
現在找張N卡太難了……
漫画字体放大得很奇怪
无法使用?
cpu是i5 4570,指令集都支持,内存8gddr3 显卡950貌似不支持,进入软件提示用cpu跑了,但是总是错误。
最新的有gui的补帧可以正常运行,但是图片超分一直显示错误,由于是之前的事,最近比较忙,具体代码就没空看了,记得是缺失了什么。
不过,本人是小白,没什么基础知识,也就是本着好奇心下载下来用了一下,所以无法运行可能是我的问题,但是老版waifu是可以用的,当然无gui的版本也用过,都一样,提示有什么not found。
至于使用web版时提示Error while cloning Space repository
如果是我的问题,那抱歉打扰了,但是我认为兼容性的优化还是很重要的,能力有限,只能说这么多了,希望能越来越好。
ncnn 版本
你好呀!呼呼呼~
请问,会提供ncnn版本吗?
兼容amd/intel/macos/linux等平台
CMD有乱码,但是能运行
有能用於Colab的方案嗎?
問就是沒有高階顯卡可以玩,想到了Google Colab一堆 K80,T4,P4和P100
不曉得能不能簡易的在colab上跑完後輸出儲存到雲端硬碟
[Question] Real time efficiency estimation
Hi, I was wondering how quick this can be in real-time processing (e.g. Live2D) ?
Is it possible to manipulate each frame within 20 ms?
Thank you.
手机版 电脑版分别
请问我在手机弄完后 把影片搬上电脑观看 会影响解析度吗 或者有没有效果会不一样
数据集问题
Hi, 请问下训练所使用的数据集是哪个是公开数据集么, 还是自己收集的动画数据
linux和macos有吗?
希望能增加更多版本,谢谢!
请求添加 ncnn Vulkan 实现
您好 想问下最低配置的显卡要求是?
这边使用2060S 8G显存
scale=2,tile=4 原图分辨率4K 一打开就爆显存
还是说1080p的图才带的起来emm
一些问题
为何1倍非超分反而不计划支持降噪?不超分也不降噪好像就是原图吧。。感觉好像降噪的定义和原来waifu2x不太一样,现在对于降噪的定义是什么?
现在这个“景深虚化”的追求感觉对于主观上的清晰度会有影响,未来会不会有锐度更高的模型?
另外快速模型势必要改架构吧,反正大概率也没法无缝兼容原来waifu2x的工程,是不是要考虑扔掉cunet然后再往里扔点这几年的新trick?比如classsr,ms3conv,ghostnet,动态卷积甚至是vit这种“dssq”架构
好家伙,我直接好家伙
有没有不单单对动漫的,对视频对照片等等
或者其他对视频的项目
叔叔终于干了件人事🤗🤗
用户手册好好写写?
好家伙,默认都是高端用户吧,基本使用指南和使用流程都没有
能否加入与Anime4K的画质和性能对比?
我一直在用 Anime4K 实时观看超分辨率的动画。希望能看到 Real-CUGAN 与 Anime4K 的对比。
No module named 'torch.torch_version'
Platform: Windows x64 1909
CUDA Version: 11.4
System Python: 3.7
Software Version: RealCUGAN_for_win10_torch1.10.0cu111
run go.bat, got error info: "from .torch_version import version as version
ModuleNotFoundError: No module named 'torch.torch_version'"
希望能尽快提供快速模型
实测,使用保守3倍模型,升采样scale=2,
在1650移动版上,受限于显存开一个线程,速度在0.22fps
在970M 6G上,开两个线程,速度0.29fps
在K80 24G上,开一个/两个线程,速度均为0.3fps左右
这样的速度对于低配用户还是不太够用啊qwq
希望也像realesrgan那样出一款快速模型、NCNN版本
之前用的RealESRGANv2-animevideo-xsx2,1080p超2160p,RX480 1分钟34图,RTX3090 1分钟173图
然后realcugan,RTX3090 1分钟只有35图,并且cuda占用率只有40%
剩余配置是i9 7980XE、双通道32G
模型对于“长得像”Artifacts的内容来说存在过度处理
目前出于个人习惯,主要还是使用的waifu2x-caffe进行操作,不过在处理特定图片的时候,发现了一个很有意思的现象。
例如,Pixiv 作品ID:90795073,原图有一种很明显故意做出来的Artifacts,类似于纸张的模糊效果或者说相机噪点。也许是模型认为这种效果是真的噪点,且标准版自带denoise level 3,所以把它给抹掉了。
原图:
个人建议如果能放出一个denoise level 0的waifu2x-caffe模型是最好的,或者希望能够实现waifu2x-caffe模型对于降噪度的自由调整。因为就本人而言,我是不喜欢将明显低于1080P且明显存在降质的图片拉到4K的,因此在图片原本信息量足够的情况下,不需要太多AI介入的部分。
Edit:
尝试使用了官方GUI进行操作,在2x-no-denoise的情况下,虽然脸部细节得到了更多保留,但原本的模糊纹理依旧存在严重涂抹痕迹,以至于出现色块现象(对比头发、胸口、手臂),因此判断并非单纯waifu2x模型默认3级降噪的问题。
多次对比后,总体还是感觉waifu2x模型的处理会更加“过分”一些,甚至连一些虚化的东西都会被强行清晰化,而官方GUI则不存在这个问题。但对比waifu2x-caffe官方模型,人工噪点的处理还是会比Real-CUGAN更好一些。
FileNotFoundError
新手请见谅
运行出现FileNotFoundError: [Errno 2] No such file or directory: 'weights_v3/up2x-latest-no-denoise.pth'
要怎么改
#超分倍率
scale=2
#参数路径,可更换
model_path2 = "weights_v3/up2x-latest-no-denoise.pth"
model_path3 = "weights_v3/up3x-latest-denoise3x.pth"
model_path4 = "weights_v3/up4x-latest-denoise3x.pth"
以上是我填的一部分
对于透明背景图片的优化效果不理想
有没有兴趣合作搞事情~
@lj1995-computer-vision 大佬你好 ( ・∀・)っ,这里是柴,一名老二刺螈 + 萌新 UP . 同时也是国产深度学习框架 天元 MegEngine 小组的看门柴,目前我在四处溜达给 Megengine 找有趣的应用,尝试进行合作来验证框架的训练推理落地能力(不论是想做 demo 还是工业级部署都可以试试,旷视内部用的就是这套自研框架,有极致的性能优化,训推全流程中的很多坑都趟通了),感兴趣的话可以搓我的狗头。
话说这个 repo 以后是阿 B 以后放各种 AILab 模型的地方嘛,期待 \( ̄▽ ̄)/.
帧率FPS问题
原视频:
帧率模式 : 动态帧率 (VFR)
帧率 : 24.431 FPS
最低帧率 : 14.985 FPS
最高帧率 : 119.880 FPS
原始帧率 : 29.970 (30000/1001) FPS
转出来的视频:
帧率模式 : 恒定帧率 (CFR)
帧率 : 119.880 (119880/1000) FPS
转出来的视频画面变得很快,请问应该改哪里的参数?
另外建议音频不用转码,直接复制原来的音轨。
-1降噪条件下 某些图片反而变模糊
能不能在github Actions 使用?
分享安装包建议用github release
网盘限制太多, 目前的和彩云链接还失效了, 建议网盘分享同时用 github release
希望同步更新VS脚本
VS上测试方便点
报错
ailab/Real-CUGAN/inference_video.py
Line 115 in 2ccc9cd
video_upscaler=VideoRealWaifuUpScaler(nt,n_gpu,scale,half,tile,p_sleep,decode_sleep,encode_params,cache_mode,alpha)
def init(self,nt,n_gpu,scale,half,tile,cache_mode,p_sleep,decode_sleep,encode_params):
位置参数传递位置错误 引发报错
不太懂给出的超分工具是做什么的?
是需要下载下来放到项目路径里面吗?
请问如何强制使用CPU运行
在云服务器上使用时观察到没有Nvidia驱动时可以使用CPU来跑
那么请问在本地环境下如何强制使用CPU呢?(因为CPU虽然慢但是可用,在下的显卡是亮机卡,一跑就爆显存)
不论怎么调都提示显存不足
版本:RealCUGAN_for_win10_torch1.10.0cu111
模型:up4x-latest-conservative.pth
终端:win10,笔记本电脑 显卡 2080SUPER
CUDA版本:11.6
_CudaDeviceProperties(name='NVIDIA GeForce RTX 2080 Super', major=7, minor=5, total_memory=8191MB, multi_processor_count=48)
设置:tile=0
half=False
scale:4
提示:RuntimeError: CUDA out of memory. Tried to allocate 4.10 GiB (GPU 0; 8.00 GiB total capacity; 3.19 GiB already allocated; 2.93 GiB free; 3.21 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
设置:tile=4
half=False
scale:4
提示:RuntimeError: CUDA out of memory. Tried to allocate 280.00 MiB (GPU 0; 8.00 GiB total capacity; 6.12 GiB already allocated; 0 bytes free; 6.17 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
设置:tile=4
half=True
scale:4
提示:RuntimeError: CUDA out of memory. Tried to allocate 138.00 MiB (GPU 0; 8.00 GiB total capacity; 5.56 GiB already allocated; 0 bytes free; 6.31 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
自制 GUI 图形用户界面 # I made a GUI for Real-CUGAN
我自制的 图片视频GIF 超分辨率+补帧 GUI, 支持调用多种超分辨率和补帧方式
Waifu2x-Extension-GUI 已经从 v3.87.12-beta 版本开始支持Real-CUGAN了, 内置, 解压安装打开即用.
GUI Download: https://github.com/AaronFeng753/Waifu2x-Extension-GUI/releases
如果贵开发组以后出NCNN-Vulkan版本我也会尽量第一时间添加支持, 或许可以能帮您省去您自己写UI的麻烦了😁
如果您觉得我这个GUI做的还行, 可以Readme加个链接吗? 谢谢
内建字幕情况下 (字幕以外)画面会变得模糊
带有字幕(留意眼睛处):
https://imgur.com/Crz6Qdu
没字幕(留意眼睛处):
https://imgur.com/qzqITWj
设定:
win10 pro
3060ti
scale=2
tile=3
nt=1
保守版
最近的大包后缀有点问题
最近的大包后缀为“.zip_2.001”需要改成“.zip.001”才能和“.zip.002”一起正常解压。希望后续更正。
关于屏幕字对景深识别的干扰和超范围 RGB32f 的处理
首先非常感谢能够公开这个模型。以下是我的一些测试反馈
测试环境
- Windows 11
- VapourSynth-classic R57
- ONNX Runtime
- GPU 为 RTX 3070 Ti 8G
- 测试模型非注明均为 2x 不降噪
1. 屏幕字对景深识别的干扰
real-cugan 相对于 realesrgan 来说会自动识别保护景深场景,这是非常值得肯定的,但是据我观察,识别的准确度还是有待提升(不过这东西难免出点错)。另外识别到景深场景时的效果和平常的效果非常不同,平常的锐度类似于 realesrgan ,而景深场景的锐度略弱于 waifu2x。这种差异当使用分块时会非常显著,比如一个1080p input 使用了 4 个 tiles,一帧画面中的不同分块的去雾策略会不一样。
(《在魔王城说晚安》,EP2,第 3109 帧)
注意画面的上下两部分,有明显分界。
另外尝试了 conservative 版,依然是 tiles=4
可看出依然有明显分界
这一问题在有屏幕字的画面上发生的很频繁,大概是把屏幕字背后的画面当作景深了,其他分块没有字的就正常处理。要解决嘛就是不分块2333。
可以看到没有明显分界,整个画面相对来说都比较糊。
附上源
但就算是在一个分块内,有时候有屏幕字的部分和周围的画面也有明显分界。
2. 超过 RGB32f 范围的处理
AI 训练过程中大概并没见过这种东西吧2333,常见于 full range 的 YUV 但是 metadata 错标为了 limited,或者是 full range YUV 的图片(比如JPEG)被转换滤镜错误的当成了 limited,另外就算是正常的画面中也有几个位置超过了 limited YUV 范围(比如 limited 的画面 full range 的屏幕字,典型例子是上面的《来自风平浪静的明天》的白字超过了235,达到了255;《在魔王城说晚安》的屏幕字黑边低于16,达到了0。不过我在这类小范围的、放大倍率低的情景下并未发现显著影响),这种东西常规的滤镜比如 zimg 转换为 RGB integer 时会自动 clamp 到范围内,但是转换为浮点 RGB 就会超过 1。保守起见有些人会手动来一个 0 1 clip
。这种越界值 real-cugan 的处理非常奇怪。。。本来是该锐化的画面,real-cugan会把它变糊,甚至越界更严重或者放大倍数更高的话会出现负的值,waifu2x-cunet 的锐度没有影响,但是也会出现奇怪的瑕疵,而 realesrganv2 的效果则没有明显影响。
发现这一问题是我的误操作,拿 repo 里的 vs demo 直接读了一个 JPEG,但是 demo 里面 用了 mvf 来转换 RGB32f,它根本不读 frameprop,看见 YUV 就当成 limited 喂给 fmtcov 了。(是个非常经典的问题,需要手动指定 range 和 matrix)
原图为 pid-31765856
转换后的源目视效果是这样
我姑且导出来了一个浮点的 TIFF 格式的图片,这是经过错误的矩阵转换到 RGBS 后,部分像素越界的源,我已知的源滤镜中 imread 可以正确读取
image000.zip
(以下图我是从qq群聊天记录里面捡回来的,虽然被 qq 压成了 yuv420p8 的 jpeg 但是目视效果基本相同)
real-cugan 4x 效果是这样的
可以看出有明显的负的值被 clamp 成 0 了
取色器中显示最小值达到了 -7 。。。。
线条周围出现瑕疵。注意这并不是被 qq 二压的(
real-esrganv2 4x
没有任何瑕疵,和用 0 1 clip
处理越界后的源没有明显区别。
虽然这种越界值并不是很常见,而且手动加个 clip 就能解决,但毕竟 b 站应该是要用这个东西实际投入生产的,也算是个提醒?毕竟real-cugan 的这个表现太奇怪而且相对来说更严重更明显。。
VapourSynth 用户 在把图像喂给类似的 AI 滤镜之前,转换为 RGBS 后,尽管确认源的 YUV 范围没有很大越界,但也要最好手动加一个 rgbs.akarin.Expr("x 0 1 clip")
或者 rgbs.std.Expr("x 0 max 1 min")
以上是我个人的简单反馈,再次感谢。
当前模型似乎存在轻微色差现象
测试了多组图片均发现有此现象,表现为高饱和度部分 G、B 通道会比原图稍微低一点点(大概低 1~5 的样子,B 通道比较明显)
ESRGAN 也有这个问题,但轻微得可以忽略不计,而 CUGAN 就比 ESRGAN 显著一些。
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.