bilibili / ailab Goto Github PK

View Code? Open in Web Editor NEW

5.5K 56.0 553.0 14.79 MB

Python 97.45% Jupyter Notebook 2.55%

ailab's Introduction

ailab

Real Cascade U-Nets for Anime Image Super Resolution

demo-video.mp4

click 🌟 Real-CUGAN🌟 for details.

ailab's People

Contributors

Stargazers

Watchers

Forkers

lwd-temp keprice pfc1999 shaohan0228 koileo-fork-plan remiferia adlsh4869 dmsama dst1213 fumiama archsoul snowmikulive zhuomingliang z1137254268 kaiqiangweinisongxing baixiongjun chancat87 insmoin kontori lj1995-computer-vision ew-wang gavinljj alexiaveronica mhbalthasar airzhangfish gsyx666 nightli110 bearx superowner bluescale007 alex-yiwang ygexe baobao323 e1100x yaalaasuoo yeyeyeping zhi-ming-shen shizuku-neko road0001 whitestorys wewan wuzerun-888 zzyydtc hyw-dev qgdyyg amirhosn84 huangweiboy2 justinjohn0306 donlinglok xrosliang 1056674754 dickmak kenair singlag 18724799167 thecry7414 zhuweideng randomrain crackercat zxysm dfmjndm hugocc1 fletin qyh214 asker1982 pieceleaf equati0n fox0618 david187 jesse3692 neophack songhx xiaolongguo kagatron ultramarinesky miblue119 sfa170001 presleylee pyraaryp djchord jocker08 glqf zt706 fire-ice andychen2005121 eshont candycandy-rixh cheng07-python orchidsd fbtjxc jamesthesnake lifeisstrange whitelonely lumina-z w1105hx e1xp fengyanlin yuasds angelbaba yosakurasakuya

ailab's Issues

某些场景下存在非常严重的涂抹情况

例如这张图，

使用贵工具进行2x超分后，与原图对比地面瓷砖存在明显，不可忽视的涂抹现象，如下所示，

希望进行改进，谢谢。

480P老动画放大后的眼部的处理问题

环境：
Windows10
GPU为1060 6G

参数：
scale=2
tile=2
模型为不降噪

当片源的眼部质量出问题或者说糊了之后，模型补充的效果变得很奇怪..

低显存显卡在设置tile后依旧爆显存

显卡为丽台t1000，显存4G，在设置tile=4，cache_mode=3后依旧爆显存

VapourSynth 导入后能否开启单卡多线程？

在VapourSynth导入后未发现线程的选项，请问是否能开启显卡的多线程？如果没有的话，希望大佬能够加入此模式。谢谢

About the license for this models

Thank you for sharing your great code. 😺

What is the license for this model? I'd like to cite it to the repository I'm working on if possible, but I want to post the license correctly.
https://github.com/PINTO0309/PINTO_model_zoo

Thank you.

requirements and runtime

Please provide a requirements.txt.

If possible, a dockerfile/docker-compose could be nice.

漫画字体放大得很奇怪

如下图,分别是原图, 使用waifu2x 1倍降噪, 使用cugan 1倍降噪放大的结果
虽然cugan在人物上效果比waifu2x好但是字体不好读

cpu是i5 4570，指令集都支持，内存8gddr3 显卡950貌似不支持，进入软件提示用cpu跑了，但是总是错误。
最新的有gui的补帧可以正常运行，但是图片超分一直显示错误，由于是之前的事，最近比较忙，具体代码就没空看了，记得是缺失了什么。
不过，本人是小白，没什么基础知识，也就是本着好奇心下载下来用了一下，所以无法运行可能是我的问题，但是老版waifu是可以用的，当然无gui的版本也用过，都一样，提示有什么not found。
至于使用web版时提示Error while cloning Space repository
如果是我的问题，那抱歉打扰了，但是我认为兼容性的优化还是很重要的，能力有限，只能说这么多了，希望能越来越好。

ncnn 版本

你好呀！呼呼呼～
请问，会提供ncnn版本吗?
兼容amd/intel/macos/linux等平台

CMD有乱码，但是能运行

应该是编码格式不同，导致执行得时候会有如下乱码

有能用於Colab的方案嗎?

問就是沒有高階顯卡可以玩，想到了Google Colab一堆 K80，T4，P4和P100
不曉得能不能簡易的在colab上跑完後輸出儲存到雲端硬碟

[Question] Real time efficiency estimation

Hi, I was wondering how quick this can be in real-time processing (e.g. Live2D) ?
Is it possible to manipulate each frame within 20 ms?

Thank you.

手机版电脑版分别

请问我在手机弄完后把影片搬上电脑观看会影响解析度吗或者有没有效果会不一样

数据集问题

Hi，请问下训练所使用的数据集是哪个是公开数据集么，还是自己收集的动画数据

linux和macos有吗？

希望能增加更多版本，谢谢！

请求添加 ncnn Vulkan 实现

https://github.com/xinntao/Real-ESRGAN-ncnn-vulkan#computer-usages
如该项目，两者同源

您好想问下最低配置的显卡要求是？

这边使用2060S 8G显存
scale=2，tile=4 原图分辨率4K 一打开就爆显存
还是说1080p的图才带的起来emm

一些问题

为何1倍非超分反而不计划支持降噪？不超分也不降噪好像就是原图吧。。感觉好像降噪的定义和原来waifu2x不太一样，现在对于降噪的定义是什么？

现在这个“景深虚化”的追求感觉对于主观上的清晰度会有影响，未来会不会有锐度更高的模型？

另外快速模型势必要改架构吧，反正大概率也没法无缝兼容原来waifu2x的工程，是不是要考虑扔掉cunet然后再往里扔点这几年的新trick？比如classsr，ms3conv，ghostnet，动态卷积甚至是vit这种“dssq”架构

好家伙，我直接好家伙

有没有不单单对动漫的，对视频对照片等等

或者其他对视频的项目

叔叔终于干了件人事🤗🤗

用户手册好好写写？

好家伙，默认都是高端用户吧，基本使用指南和使用流程都没有

能否加入与Anime4K的画质和性能对比？

我一直在用 Anime4K 实时观看超分辨率的动画。希望能看到 Real-CUGAN 与 Anime4K 的对比。

No module named 'torch.torch_version'

Platform: Windows x64 1909
CUDA Version: 11.4
System Python: 3.7
Software Version: RealCUGAN_for_win10_torch1.10.0cu111

run go.bat, got error info: "from .torch_version import version as version
ModuleNotFoundError: No module named 'torch.torch_version'"

希望能尽快提供快速模型

实测，使用保守3倍模型，升采样scale=2，
在1650移动版上，受限于显存开一个线程，速度在0.22fps
在970M 6G上，开两个线程，速度0.29fps
在K80 24G上，开一个/两个线程，速度均为0.3fps左右
这样的速度对于低配用户还是不太够用啊qwq

希望也像realesrgan那样出一款快速模型、NCNN版本

之前用的RealESRGANv2-animevideo-xsx2，1080p超2160p，RX480 1分钟34图，RTX3090 1分钟173图
然后realcugan，RTX3090 1分钟只有35图，并且cuda占用率只有40%
剩余配置是i9 7980XE、双通道32G

模型对于“长得像”Artifacts的内容来说存在过度处理

目前出于个人习惯，主要还是使用的waifu2x-caffe进行操作，不过在处理特定图片的时候，发现了一个很有意思的现象。
例如，Pixiv 作品ID：90795073，原图有一种很明显故意做出来的Artifacts，类似于纸张的模糊效果或者说相机噪点。也许是模型认为这种效果是真的噪点，且标准版自带denoise level 3，所以把它给抹掉了。
原图：

放大后：

个人建议如果能放出一个denoise level 0的waifu2x-caffe模型是最好的，或者希望能够实现waifu2x-caffe模型对于降噪度的自由调整。因为就本人而言，我是不喜欢将明显低于1080P且明显存在降质的图片拉到4K的，因此在图片原本信息量足够的情况下，不需要太多AI介入的部分。

Edit：
尝试使用了官方GUI进行操作，在2x-no-denoise的情况下，虽然脸部细节得到了更多保留，但原本的模糊纹理依旧存在严重涂抹痕迹，以至于出现色块现象（对比头发、胸口、手臂），因此判断并非单纯waifu2x模型默认3级降噪的问题。

多次对比后，总体还是感觉waifu2x模型的处理会更加“过分”一些，甚至连一些虚化的东西都会被强行清晰化，而官方GUI则不存在这个问题。但对比waifu2x-caffe官方模型，人工噪点的处理还是会比Real-CUGAN更好一些。

FileNotFoundError

新手请见谅
运行出现FileNotFoundError: [Errno 2] No such file or directory: 'weights_v3/up2x-latest-no-denoise.pth'
要怎么改

#超分倍率
scale=2

#参数路径，可更换
model_path2 = "weights_v3/up2x-latest-no-denoise.pth"

model_path3 = "weights_v3/up3x-latest-denoise3x.pth"
model_path4 = "weights_v3/up4x-latest-denoise3x.pth"

以上是我填的一部分

对于透明背景图片的优化效果不理想

此项目对图片本身的的优化效果很好，不过对于某些透明背景的图片，优化后会有马赛克

有没有兴趣合作搞事情~

@lj1995-computer-vision 大佬你好 ( ・∀・)っ，这里是柴，一名老二刺螈 + 萌新 UP . 同时也是国产深度学习框架天元 MegEngine 小组的看门柴，目前我在四处溜达给 Megengine 找有趣的应用，尝试进行合作来验证框架的训练推理落地能力（不论是想做 demo 还是工业级部署都可以试试，旷视内部用的就是这套自研框架，有极致的性能优化，训推全流程中的很多坑都趟通了），感兴趣的话可以搓我的狗头。

话说这个 repo 以后是阿 B 以后放各种 AILab 模型的地方嘛，期待＼(￣▽￣)／.

帧率FPS问题

原视频：
帧率模式 : 动态帧率 (VFR)
帧率 : 24.431 FPS
最低帧率 : 14.985 FPS
最高帧率 : 119.880 FPS
原始帧率 : 29.970 (30000/1001) FPS

转出来的视频：
帧率模式 : 恒定帧率 (CFR)
帧率 : 119.880 (119880/1000) FPS

转出来的视频画面变得很快，请问应该改哪里的参数？
另外建议音频不用转码，直接复制原来的音轨。

-1降噪条件下某些图片反而变模糊

使用的是ncnn版本 amd显卡
触发原因不清楚整卷漫画偶尔会有几张图片出现这个情况重复尝试依旧换到-1以上的降噪就没有这个问题
使用-1降噪的主要原因是这个倍数的降噪对画风影响低,字体也不会变奇怪,还能消除原图中字体周围的噪点,使画面更干净
我只能贴几张有问题和没问题的图来说明
有该问题的原图:

-1降噪:

有该问题的原图:

-1降噪:

其他正常的原图:

-1降噪:

能不能在github Actions 使用？

分享安装包建议用github release

网盘限制太多, 目前的和彩云链接还失效了, 建议网盘分享同时用 github release

希望同步更新VS脚本

VS上测试方便点

报错

ailab/Real-CUGAN/inference_video.py

Line 115 in 2ccc9cd

 video_upscaler=VideoRealWaifuUpScaler(nt,n_gpu,scale,half,tile,p_sleep,decode_sleep,encode_params,cache_mode,alpha) 

video_upscaler=VideoRealWaifuUpScaler(nt,n_gpu,scale,half,tile,p_sleep,decode_sleep,encode_params,cache_mode,alpha)
def init(self,nt,n_gpu,scale,half,tile,cache_mode,p_sleep,decode_sleep,encode_params):

位置参数传递位置错误引发报错

不太懂给出的超分工具是做什么的？

是需要下载下来放到项目路径里面吗？

请问如何强制使用CPU运行

在云服务器上使用时观察到没有Nvidia驱动时可以使用CPU来跑

那么请问在本地环境下如何强制使用CPU呢？（因为CPU虽然慢但是可用，在下的显卡是亮机卡，一跑就爆显存）

不论怎么调都提示显存不足

版本：RealCUGAN_for_win10_torch1.10.0cu111
模型：up4x-latest-conservative.pth
终端：win10,笔记本电脑显卡 2080SUPER
CUDA版本：11.6
_CudaDeviceProperties(name='NVIDIA GeForce RTX 2080 Super', major=7, minor=5, total_memory=8191MB, multi_processor_count=48)

设置：tile=0
half=False
scale:4
提示：RuntimeError: CUDA out of memory. Tried to allocate 4.10 GiB (GPU 0; 8.00 GiB total capacity; 3.19 GiB already allocated; 2.93 GiB free; 3.21 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

设置：tile=4
half=False
scale:4
提示：RuntimeError: CUDA out of memory. Tried to allocate 280.00 MiB (GPU 0; 8.00 GiB total capacity; 6.12 GiB already allocated; 0 bytes free; 6.17 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

设置：tile=4
half=True
scale:4
提示：RuntimeError: CUDA out of memory. Tried to allocate 138.00 MiB (GPU 0; 8.00 GiB total capacity; 5.56 GiB already allocated; 0 bytes free; 6.31 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

自制 GUI 图形用户界面 # I made a GUI for Real-CUGAN

我自制的图片视频GIF 超分辨率+补帧 GUI, 支持调用多种超分辨率和补帧方式

Waifu2x-Extension-GUI 已经从 v3.87.12-beta 版本开始支持Real-CUGAN了, 内置, 解压安装打开即用.

GUI Download: https://github.com/AaronFeng753/Waifu2x-Extension-GUI/releases

如果贵开发组以后出NCNN-Vulkan版本我也会尽量第一时间添加支持, 或许可以能帮您省去您自己写UI的麻烦了😁

如果您觉得我这个GUI做的还行, 可以Readme加个链接吗? 谢谢

@lj1995-computer-vision

内建字幕情况下（字幕以外）画面会变得模糊

带有字幕（留意眼睛处）：
https://imgur.com/Crz6Qdu

没字幕（留意眼睛处）：
https://imgur.com/qzqITWj

原图
https://imgur.com/kOSSUsw

设定：
win10 pro
3060ti
scale=2
tile=3
nt=1
保守版

最近的大包后缀有点问题

最近的大包后缀为“.zip_2.001”需要改成“.zip.001”才能和“.zip.002”一起正常解压。希望后续更正。

关于屏幕字对景深识别的干扰和超范围 RGB32f 的处理

首先非常感谢能够公开这个模型。以下是我的一些测试反馈

测试环境

Windows 11
VapourSynth-classic R57
ONNX Runtime
GPU 为 RTX 3070 Ti 8G
测试模型非注明均为 2x 不降噪

1. 屏幕字对景深识别的干扰

real-cugan 相对于 realesrgan 来说会自动识别保护景深场景，这是非常值得肯定的，但是据我观察，识别的准确度还是有待提升（不过这东西难免出点错）。另外识别到景深场景时的效果和平常的效果非常不同，平常的锐度类似于 realesrgan ，而景深场景的锐度略弱于 waifu2x。这种差异当使用分块时会非常显著，比如一个1080p input 使用了 4 个 tiles，一帧画面中的不同分块的去雾策略会不一样。
（《在魔王城说晚安》，EP2，第 3109 帧）

注意画面的上下两部分，有明显分界。

另外尝试了 conservative 版，依然是 tiles=4

可看出依然有明显分界

这一问题在有屏幕字的画面上发生的很频繁，大概是把屏幕字背后的画面当作景深了，其他分块没有字的就正常处理。要解决嘛就是不分块2333。

可以看到没有明显分界，整个画面相对来说都比较糊。

附上源

附上 waifu2x 的

还有realesrganv2的

但就算是在一个分块内，有时候有屏幕字的部分和周围的画面也有明显分界。

（《来自风平浪静的明天》，EP2，第32230帧）

附上源

2. 超过 RGB32f 范围的处理

AI 训练过程中大概并没见过这种东西吧2333，常见于 full range 的 YUV 但是 metadata 错标为了 limited，或者是 full range YUV 的图片（比如JPEG）被转换滤镜错误的当成了 limited，另外就算是正常的画面中也有几个位置超过了 limited YUV 范围（比如 limited 的画面 full range 的屏幕字，典型例子是上面的《来自风平浪静的明天》的白字超过了235，达到了255；《在魔王城说晚安》的屏幕字黑边低于16，达到了0。不过我在这类小范围的、放大倍率低的情景下并未发现显著影响），这种东西常规的滤镜比如 zimg 转换为 RGB integer 时会自动 clamp 到范围内，但是转换为浮点 RGB 就会超过 1。保守起见有些人会手动来一个 0 1 clip 。这种越界值 real-cugan 的处理非常奇怪。。。本来是该锐化的画面，real-cugan会把它变糊，甚至越界更严重或者放大倍数更高的话会出现负的值，waifu2x-cunet 的锐度没有影响，但是也会出现奇怪的瑕疵，而 realesrganv2 的效果则没有明显影响。

发现这一问题是我的误操作，拿 repo 里的 vs demo 直接读了一个 JPEG，但是 demo 里面用了 mvf 来转换 RGB32f，它根本不读 frameprop，看见 YUV 就当成 limited 喂给 fmtcov 了。（是个非常经典的问题，需要手动指定 range 和 matrix）

原图为 pid-31765856

转换后的源目视效果是这样