ftn-ai-lab / sc-2023 Goto Github PK

View Code? Open in Web Editor NEW

11.0 6.0 0.0 92.63 MB

Soft Computing 2023/2024

License: MIT License

Jupyter Notebook 100.00%

sc-2023's Introduction

sc-2023

Reporizotijum kursa: Soft Computing
Studijski programi:

Računarstvo i automatika
Softversko inženjerstvo i informacione tehnologije

Školska godina: 2023/2024

sc-2023's People

Contributors

Stargazers

Watchers

sc-2023's Issues

Face and Voice Recognition for Authentication purpose

Definicija problema

Projekat ima za cilj razvoj sistema za autentifikaciju putem detekcije lica i prepoznavanje glasa. Koristiće se tehnike dubokog učenja, kako bi se omogućilo pouzdano prepoznavanje lica i glasa korisnika. Ovaj sistem bi bio pogodan za integraciju u različite aplikacije kao sredstvo za bezbednu autentifikaciju.

Motivacija problema

Rešavanje ovog problema ima praktičnu primenu u domenu sigurnosti i korisničkog iskustva. Softver za detekciju lica i glasa može se primeniti u raznim oblastima, uključujući pristup aplikacijama, sigurnosne sisteme, ili čak finansijske transakcije, pružajući dodatne slojeve sigurnosti uz istovremeno poboljšanje korisničke interakcije.

Metodologija

Preprocesiranje podataka:

Implementacija algoritama za preprocesiranje slika radi poboljšanja kvaliteta podataka, normalizacije osvetljenja i eliminacije šuma koji mogu uticati na detekciju.

Detekcija lica i zvuka:

Upotreba prethodno treniranih modela za detekciju lica i zvuka.

Ekstrakcija karakteristika lica:

Primena neuronskih mreža za ekstrakciju karakteristika iz detektovanih regija koje sadrže lica.

Evaluacija

Tačnost detekcije lica i zvuka:
Izračunavanje tačnosti sistema u prepoznavanju lica i zvuka na testnom skupu podataka.

Tim

Miloš Čuturić - SV11/2020
Marko Janošević - SV46/2020

Asistent

Marko Njegomir

Upravljanje kalkulatorom pomoću govora i gestikulacije šake

Tim:

Katarina Vučić SV29/2020

Hristina Adamović SV32/2020

Nemanja Šimšić SV68/2020

Asistent:

Njegomir Marko

Definicija problema:

Implementacija kalkulatora koristeći zvuk i video kao ulaz. Podržane operacije su sabiranje, oduzimanje, množenje i deljenje.

Skup podataka:

Skup podataka će biti generisan ručno, od strane članova tima.

Tačne vrednosti za testiranje i treniranje će se skladištiti u CSV fajlu.

Metodologija:

Za klasifikaciju gesture ruke će biti korišćen CNN model, dok će za klasifikaciju zvuka biti korišćen MFCC model, zajedno sa SVM klasifikatorom.

Na kraju će se vršiti izračunavanje svih dobijenih izlaza i dobijeni rezultat će biti poređen
sa očekivanim.

Evaluacija:

Za treniranje će biti iskorišteno 80% podataka, dok će za testiranje 20%.

Za evaluaciju kalkulatora će se koristiti metrika tačnosti.

Za evaluaciju klasifikacije će se koristiti sledeće metrike:

preciznost
tačnost
odziv
F mera

GitHub repozitorijum:

https://github.com/slepimis120/Sakalkulator/

Detekcija i klasifikacija ljudskih akcija

Tim:
Srđan Stjepanović, SV16/2020

Asistent:
Vidaković Dragan

Definicija problema:
Detekcija čovjeka na slici i klasifikacija njegove trenutne aktivnosti na osnovu njegove poze

Skup podataka:
Skup podataka sa slikama ljudi i labelama njihove aktivnosti
https://www.kaggle.com/datasets/meetnagadia/human-action-recognition-har-dataset

Metodologija:
Skup podataka će se pretprocesirati koristeći OpenPose model za izdvajanje ključnih tačaka ljudskog tijela što će biti ulaz u različite modele za klasifikaciju (Neural network, SVM, random forest), čiji rezultati će se porediti.

Evaluacija:
Accuracy, precision

Детекција корова у пољопривредним усевима

Тим

Лазар Магазин SV 25/2020

Асистент

Марко Његомир

Дефиниција проблема

Истренирати интелигентни модел да детектује биљке са фотографије и класификује их на основу тога да ли је у питању нежељен коров или усев.

Улаз је фотографија дела парцела, а излаз је списак детектованих објеката и њима придружене класе и њихови bounding box-ови.

Мотивација проблма

Међу највећим проблемима у пољопривреди истичу се корови.

Студија случаја: пшеница. Као друга најзаступљенија култура биљне производње у Србији са уделом од 24,3% обрадивог земљишта у 2022. години [1], пшеница и њени корови представљају актуелну тему у развоју интензивног типа пољопривреде. Само у Србији забележено је преко 200 коровских врста које штете пшеници.

Узроци настанка корова су: [2]

гајење монокултурних поља
употреба семена запрљаног семенима корова
низак квалитет земљишта
неодговарајуће величине парцела
лоше ђубриво.

Сузбијање ових корова је неопходно како би се заштитио квалитет усева, максимизовао приход, очувао квалитет земљишта итд. Неке од техника за сузбијање корова су:

гајење плодореда уместо монокултуре
употреба квалитетнијег семена
уклањање корова

Применом рачунарске визије, машине попут роботских руку, дронова итд. биле би у стању да препознају коров и уклоне га чупањем или прскањем хербицидима. Поред овога, пољопривредници би релативно брзо добили увид у стање парцела приликом експериментисања са различитим ђубривом, семењем, техникама обраде земљишта итд.
Примери реалне употребе рачунарске визије за решавање овог проблема: [3], [4], [5].

Скуп података

Користиће се неки од следећих скупова података. У питању су фотографије усева и корова, фотографисаних релативно близу у односу на камеру. На фотографији се може појавити ниједан или више објеката од значаја.

По потреби ће се слике додадно анотирати користећи RoboFlow радни овкир.

Методологија

Основа за модел је конволутивна неуронска мрежа Yolo v8, претренирана на COCO скупу података.

Fine tuning-ом ће се модел доучити на споменутим сликама. Скуп података ће се поделити на тренинг, тест и валидациони скуп (вероватно у односу 60:20:20).

Евалуација

Посматраће се прецизност, одзив, F1 мера, average precision, mean average precision, box loss, intersection over union и class loss. Такође ће се узети у обзир и брзина евалуације појединачних слика, у циљу оптимизације за благовремену детекцију.

Репозиторијум

Репо

Prepoznavanje muzičkog instrumenta, visine tona kao i njegovog trajanja

Tim:
Mili Bovan RA 41/2020

Asistent:
Filip Volarić

Definicija problema:
Prepoznavanje instrumenta koji je odsvirao ton kao i njegova visina i potencijalno i trajanje tog tona. Na ulazu je audio datoteka koja sadrži sekvencu tonova odsviranih na istom ili različitim instrumentima. Pored instrumenta, potrebno je odrediti i visinu tona, odnosno njegovo mjesto u notnom sistemu u okviru oktava. To je primarni zadatak, dok je trajanje i mapiranje na notni zapis proširenje datog problema.

Motivacija problema:
Program nakon obučavanja bi trebalo da služi kao alat za prepoznavanje muzičke sekvence odsvirane na bilo kom instrumentu. Takođe, može poslužiti za lakše prepoznavanje nota kao mogućnost za lakšu reprodukciju kao i prepoznavanje nepoznate melodije.

Skup podataka:
Skup podataka ću sam izgenerisati koristeći StudioOne 5 alata, kao i posjedovanje znanja i alata za generisanje.

Metodologija:
Za obradu zvuka koristiću biblioteku LibROSA. Osobine zvuka izdvojiću pomoću MFCCs. Za trening i klasifikaciju koristiću više različitih CNN mreža i izbrao bih onu koja daje najbolje rezultate. U slučaju da su rezultati neizbalansirani, koristiću Python-ovu biblioteku Imbalanced-learn

Evaluacija:
Skup podataka ćemo podijeliti na validacioni, testni i trening. Efikasnost ću odrediti korišćenjem metrika F1 i loss.

Sistem za detekciju košarkaške lopte i ažuriranje rezultata utakmice

Tim:

Jovan Najdovski, SV30/2020

Asistent:

Vidaković Dragan

Definicija problema:

Razvoj sistema za detekciju objekata u stvarnom vremenu za automatsko praćenje košarkaške lopte tokom igre i detekciju prolaska lopte kroz koš, kako bi se automatski ažurirali poeni.

Skup podataka:

Koristiće se više skupova podataka sa slikama košarkaških lopti i koševa. Skupovi će biti anotirani na Roboflow platformi (bounding boxes, polygons, key points).
Skupovi podataka imaju različite scenarije igre, različite svetlosne uslove i različite veličine košarkaške lopte.

Metodologija:

Skup podataka će biti augmentovan i zatim treniran na YOLOv8 modelu. Razmatra se mogućnost Fine-tuning-a na već prethodno obučenom YOLOv8 modelu.

Evaluacija:

Skupovi podataka bi bili kombinovani u jedan veći skup, potom na slučajan način podeljeni u podskupove od 80% za trening, 10% za test i 10% za validaciju.
Za evaluaciju će se koristiti accuracy i precision metrike.

Sistem za detekciju emocija na osnovu zvuka

Tim

Anja Petković SV22/2020

Asistent

Marko Njegomir

Definicija problema

Analizator Emocija u Govoru
Ideja iza ovog projekta je stvaranje mašinskog učenja koje može da detektuje emocije iz govora koji koristimo svakodnevno. Danas je personalizacija nešto što je potrebno u svemu što svakodnevno doživljavamo.

Motivacija problema

Kreiranje detektora emocija koji će ocenjivati naše emocije i u budućnosti preporučivati različite stvari na osnovu našeg raspoloženja. Ovo se može koristiti u više industrija kako bi se ponudile različite usluge, kao što su marketinške kompanije koje nam predlažu da kupujemo proizvode na osnovu naših emocija, automobilska industrija može detektovati emocije osobe i prilagoditi brzinu autonomnih automobila kako bi se izbegli sudari itd.

Skup podataka

Skupovi podataka:
Korišćena su dva različita skupa podataka:

RAVDESS. Ovaj skup podataka uključuje oko 1500 audio datoteka od 24 različita glumca. 12 muškaraca i 12 žena gde ovi glumci snimaju kratke audio zapise u 8 različitih emocija tj. 1 = neutralno, 2 = mirno, 3 = srećno, 4 = tužno, 5 = ljuto, 6 = uplašeno, 7 = gađenje, 8 = iznenađenje.
Svaka audio datoteka je imenovana na takav način da sedmi karakter odgovara različitim emocijama koje predstavljaju.

SAVEE. Ovaj skup podataka sadrži oko 500 audio datoteka snimljenih od 4 različita muška glumca. Prva dva karaktera imena datoteke odgovaraju različitim emocijama koje prikazuju.

Audio datoteke

Spektrogram

Metodologija

Izdvajanje Karakteristika
Sledeći korak uključuje izdvajanje karakteristika iz audio datoteka koje će pomoći našem Sequential modelu da uči između ovih audio datoteka. Za izdvajanje karakteristika koristimo LibROSA biblioteku u Pythonu, koja je jedna od biblioteka korišćenih za analizu zvuka.

Evaluacija

Izgradnja Modela

Pošto se projekat bavi problemom klasifikacije, korišćenje Sequential modela u kombinaciji sa odgovarajućim slojevima se čini kao očigledan izbor. Za ovaj projekat, dataset je podeljen na 10% za testiranje i 90% za treniranje. U okviru Sequential modela, moguće je koristiti različite vrste slojeva, uključujući konvolucijske slojeve, jer se radi o obradi audio zapisa.

Predviđanja

Nakon što je model podešen, testiran je predviđanjem emocija za test podatke. Podešavanje modela uključuje prilagođavanje slojeva, parametara i hiperparametara kako bi se postigla što bolja tačnost na test skupu.

Testiranje snimljenim glasovima

Da bismo dodatno testirali model, koristimo glasove koji su potpuno različiti od onih koji se nalaze u podacima za obuku i testiranje. Snimamo glasove sa različitim emocijama i koristimo model za predviđanje emocija iz ovih snimaka. Ovo nam omogućava da testiramo kako model funkcioniše u realnim, nepoznatim uslovima i da procenimo njegovu sposobnost generalizacije na novim podacima.

Fino podešavanje diffusion modela

Tim:

Tina Mihajlović SV3/2020

Asistent:

Marko Njegomir

Motivacija:

Diffusion modeli su trenutni state-of-the-art pristup za generisanje fotografija u svetu veštačke inteligencije - na osnovu tekstualnog opisa, ovi modeli generišu slike koje odgovaraju tom opisu (text to image).

Stable Diffusion je open source latentni diffusion model koji postiže zavidne rezultate na zadatku generalne generacije slika, međutim, njegova prava moć leži u velikom broju metoda za dotreniravanje baznih modela za generaciju specifičnih stilova, karaktera i kompozicija.

Definicija problema:

Cilj projekta je istraživanje arhitekture diffusion modela, primena Stable Diffusion-a kroz Automatic1111 open source ui, kao i dotreniravanje modela ubacivanjem novog koncepta koji bi on nakon toga verno reprodukovao.

Metodologija:

Postoji više načina za fino podešavanje Stable Diffusion modela (DreamBooth, LoRA, ControlNet, textual inversion...).
Za ovaj projekat fokus će biti na finom podešavanju koristeći LoRA-e (Low Rank Adaptation Matrices), pristup u kom se naučene težine modela zamrznu, a u attention slojeve se "injektuju" matrice koje čuvaju razliku originalnih i dotreniravanjem naučenih težina tih attention slojeva - cilj dotreniravanja je upravo ucenje težina tih injektovanih matrica.

LoRA pristup daje sjajne rezultate u zadacima kao što su: generacija slika u odredjenom stilu (Disney stil), generaciji konkretnih karaktera, odeće, pozadina...

Cilj projekta je primena LoRA metoda za ubacivanje novog koncepta u Stable Diffusion v1.5 model - npr. naučiti model da generiše karaktere u srpskoj nošnji.

Skup podataka:

Prednost LoRA metoda, pored toga što model uči manji broj težina nego da menjamo sve težine modela, jeste ta što je za dotreniravanje relativno velikih diffusion modela (v1.5 ima skoro milijardu parametara) potreban relativno mali skup slika - oslanjamo se na ideju da očuvavamo znanje baznog modela.
S toga će se za treniranje koristiti samostalno prikupljen test skup koji će se ručno anotirati i proslediti na obuku - za obuku je potrebno proslediti sliku koja ilustruje koncept koji želimo da model nauči, kao i tekstualni opis ("prompt") za svaku fotografiju.

Evaluacija:

Evaluacija ce biti vršena kroz pracenje performansi modela na validacionom i test skupu, kao i empirijski, kroz upoređivanje slika koje model generiše pre i posle dotreniravnja, kada se promptuje da generiše novi koncept koji smo probali da ga naučimo.

Kontrolisanje video igre koristeći "hand gestures"

1. Tim

Članovi tima:

Bojan Mijanović, SV8/2020
Ognjen Radovanović, SV74/2020

2. Asistent

Marko Njegomir

3. Definicija Problema

Razviti sistem za kontrolu video igre pomoću kamere i detekcije šake, omogućavajući igračima da upravljaju igrom kroz jednostavne gestove i pokrete šake umesto klasičnih kontrolera.

4. Motivacija Problema

Cilj nam je unaprediti iskustvo igranja video igara, čineći ga pristupačnijim i zabavnijim.

5. Skup Podataka

Za treniranje modela bismo koristili već postojeći data set.
https://www.kaggle.com/datasets/gti-upm/leapgestrecog

6. Metodologija

Koristićemo tehniku dubokog učenja. Napisali bismo našu verziju YOLO algoritma.

7. Evaluacija

Evaluacija će se sprovoditi kroz:
Performanse Kontrole Igre: Testiranje efikasnosti sistema u upravljanju igrom pomoću detektovanih gestova.

Softver za detekciju i čitanje zvaničnih identifikacionih dokumenata

Tim:
Jovan Dozic RA 75/2020

Asistent:
Filip Volarić

Definicija problema:
Razviti softver za detekciju i čitanje zvaničnih identifikacionih dokumenata, kao što su lične karte, pasoši, i vozačke dozvole, iz bilo koje države. Softver treba da automatski prepozna tip dokumenta na osnovu slike, izvuče tekstualne podatke i klasifikuje ih.

Motivacija:
Cilj je automatizovati proces prepoznavanja i ekstrakcije podataka iz identifikacionih dokumenata kako bi se poboljšala efikasnost u administrativnim procesima i poboljšala sigurnost.

Skup podataka:
Koristiće se skup podataka sastavljen od digitalizovanih slika različitih identifikacionih dokumenata, prikupljenih uz poštovanje privatnosti i zakonskih regulativa. Podaci će biti podeljeni na trening skup (~70%), validacioni skup (~15%) i testni skup (~15%).

Metodologija:
Primena konvolucijskih neuronskih mreža (CNN) za klasifikaciju dokumenata i optičko prepoznavanje karaktera (OCR) za ekstrakciju teksta. Korišćenje TensorFlow i Tesseract OCR alata. Implementiraće se krosvalidacija kako bi se smanjila pristrasnost i varijabilnost u proceni performansi modela.

Evaluacija:
Performanse sistema će se evaluirati kroz tačnost prepoznavanja tipa dokumenta i preciznost ekstrakcije teksta. Primarno će se koristiti metrike kao što su tačnost, preciznost i F1 skor. Dodatno, Levenshteinova udaljenost će se koristiti za procenu preciznosti ekstrakcije teksta, a Mean Average Precision (MAP) za ocenjivanje performansi klasifikacije dokumenata.

Dynamic Branch Prediction

1. Tim
Strahinja Praška RA 245/2021

2. Asistent
Aleksandra Kaplar

3. Definicija problema
Branch prediction - tehnika koja se koristi za predviđanje toka izvršavanja kondiconalnih instrukcija u cilju poboljšanja efikasnosti. Ona omogućava procesoru da pokuša da pogodi u kom će se pravcu grananje odvijati pre nego što se tačan uslov grananja evaluira. Ideja je da koristimo mašinsko učenje kako alternativu za dvobitne brojače za predviđanje.

4. Skup podataka
Kaggle Branch Prediction
Features:

PC of an Instruction - uint32_t - converted into binary (first 32 columns)
current state of GSHARE table size 64 - int8_t array - global history array of previous conditional moves in the form of saturation counters - normalized to [0,1] (next 64 columns)
current state of GA table - uint8_t array size 48 - global address array of previous instruction's PC(only lower 8 bits taken) converted to binary(next 48*8 columns)
Target Taken/Not Taken

5. Metodologija
Metode koje bi bile korišćene bi bio perceptron[1] kao najjednostavniji, ali i najpogodniji za potencijalne hardverske implementacije. Tu su i druge metode kao što su Feed-Forward neuronska mreža, Elmanova mreža[3] i CNN[2] bi takođe mogle biti iskorišćene i rezultati upoređeni(u kojoj meri vreme će odrediti).

6. Evaluacija
Glavni fokus evaluacije će biti na tačnosti predviđanja grane, metrika accuracy, podela na training i validation skup u odnosu 80-20, test skup ce biti SPEC2000 benchmark dataset.

Reference
[1] Zangeneh, S., Pruett, S., Lym, S., & Patt, Y. N. (2020). BranchNet: A Convolutional Neural Network to Predict Hard-To-Predict Branches
[2] Jiménez, D. A., & Lin, C. (2001). Dynamic Branch Prediction with Perceptrons
[3] Smith, A. (2004). Branch Prediction with Neural Networks: Hidden Layers and Recurrent Connections

Image Style Transfer

Tim:

Nemanja Vujadinović

Asistent:

Marko Njegomir

Definicija problema:

Image Style Transfer predstavlja tehniku u oblasti computer vision-a čija ideja je da za dve slike - content i style image, generiše novu tako što će generisana slika sad predstavljati spoj dve ulazne - jednostavnije rečeno, sadržaj prve slike, biće 'naslikan' u stilu druge. Osnovni primer ove tehnike bio bi da se nečiji portret ili pejzaž, pretvori u onakav kakvog bi Pablo Picasso ili neko od drugih velikih umetnika, stvorio.
U ovom projektu, baziraćemo se na Neural Style Transfer-u i generisanju pomoću Generative Adversarial Networks. (NST će svakako biti implementiran, a ukoliko vreme dozvoli i rešenje pomoću GAN-ova, pa će biti moguće porediti rezultate.)

Metodologija:

Za implementaciju NST-a, koristiće se tehnika Transfer learning-a sa pretrained VGG-19 mrežom.
Za generisanje slika pomoću GAN-ova, koristiće se CycleGAN.

Skup podataka:

U slučaju NST-a, sam training i training set neće postojati, pa će u inference-u biti moguće koristiti podatke (dve slike) po želji. Za style image, između ostalih, mogu biti korisne i slike iz skupa podataka za CycleGAN implementaciju.
U slučaju CycleGAN-a, za style images biće korišten WikiArt skup podataka koji sadrži stilove i radove više od 150 umetnika. Za slike pejzaža, koristan skup podataka je Flickr, a za portrete CelebA ili neki sličan skup koji izoluje portrete osoba.

Evaluacija

Empirijski će se porediti rezultati ova dva pristupa, što će se najviše bazirati na samom izgledu generisanih slika. Takođe porediće se i same performanse. (U slučaju implementacije isključivo NST-a, rezultati će se empirijski evaluirati.)

Detekcija registarskih tablica na automobilu i čitanje teksta na tablicama (closed)

Face Detection & Face Recognition

Definicija problema

Zadatak obuhvata prepoznavanje i detekciju lica unutar video strima, s ciljem olakšavanja mehanizma otključavanja pametne brave. Za streaming ce se koristiti ESP32-CAM uređaj. Link do repozitorijuma za pametnu bravu: https://github.com/vukasinb7/Smart-Lock. U sistemu postoji mogućnost dodavanja novih "sigurnih" lica kao i detekcija mraka u svrhu paljenja dodatnog svetla dok ne detektuje lice sa uspešnim ishodom ili do timeouta.

Skup podataka

ImageNet dataset za ResNet50 pretreniran model sa ekstracijom feature za naša lica

Metodologija

Prikupljanje i pretprocesiranje sadržaja skupa podatka u cilju izdvanja ključnih tačaka lica koji će biti ulazni podaci za odabrani model klasifikacije. Planirani model neuronske mreže za prepoznavanje lica koji će se koristiti je Resnet50 pretreniran model, a klasifirkator za detekciju lica će biti HaarCascade.

Evaluacija

Accuracy i precision metrika

Tim

Jovan Jokić - SV47/2020,
Vukašin Bogdanović - SV9/2020,

Asistent

Marko Njegomir

##Github Repository
https://github.com/vukasinb7/Smart-Lock

Audio prevodilac: Transformacija srpskog jezika u druge svetske jezike

Tim:

SV42/2020 Babić Danilo
SV49/2020 Erdelji Marko
SV61/2020 Miković Jelena

Asistent:

Njegomir Marko
Vidaković Dragan

Definicija problema:

U današnjem globalizovanom društvu postoji potreba za audio prevodom sa srpskog na druge jezike. Efikasna rešenja u oblasti audio prevoda omogućavaju autentičnu međunarodnu komunikaciju i pristup kulturnim sadržajima na srpskom jeziku.

Skup podataka:

Audio recognition: https://huggingface.co/datasets/google/fleurs/viewer/sr_rs

Metodologija:

Iz skupa podataka vršićemo filtriranje i obradu audio i tekstualnih materijala na srpskom jeziku. Specifično, razvijaćemo model za translaciju audio zapisa u tekstualni format, a obuka će se sprovoditi na relevantnim podacima. Generisani tekst će zatim biti preveden na ciljni jezik (engleski). Konačno, prevedeni tekst će se transformisati u audio format putem prethodno treniranog i optimizovanog modela za tekst u govor (text-to-speech).

Evaluacija:

Metrike poput WER (Word Error Rate) za performanse

Merenje površine krova objekta korišćenjem R-CNN mreže

Tim:

Tamara Ilić, SV45/2020
Uroš Poček, SV57/202

Asistent:

Marko Njegomir

Definicija problema:

Detekcija i merenje površine krova objekta na osnovu satelitskih snimaka

Skup podataka:

Skup podataka sa satelitskim slikama dobijenih pomoću Google Maps API-ja. Trenutni skup je anotiran na Roboflow platformi, pomoću alata za označavanje segmenata od interesa. Skup će biti proširen prilikom izrade projekta.
https://universe.roboflow.com/solarise/roof-top-detection-8eyrx/browse?queryText=&pageSize=50&startingIndex=0&browseQuery=true

Metodologija:

Skup podataka će biti augmentovan i anotiran COCO anotacijom. Detectron 2 implementacija R50-FPN R-CNN mreže biće dodatno istrenirana da detektuje krovove na slici. Sama površina krova će se određivati na osnovu površine detektovane konture i pretvaranja piksela u metre kvadratne.

Evaluacija:

mPA i IOU

Prepoznavanje saobraćajnih znakova

#Naslov:
Prepoznavanje saobraćajnih znakova

Tim:

Branislav Stojković (SV64/2020)
Asistent: Marko Njegomir

Definicija Problema:

Cilj ovog projekta je razviti model dubokog učenja (CNN) za precizno prepoznavanje saobraćajnih znakova. Saobraćajni znakovi igraju ključnu ulogu u očuvanju bezbednosti saobraćaja, a razvoj autonomnih vozila i sistema za asistenciju vozaču zahteva pouzdano prepoznavanje ovih znakova kako bi vozila mogla da se pridržavaju saobraćajnih pravila. Projekat se fokusira na klasifikaciju saobraćajnih znakova u različite kategorije.

Skup Podataka:

Za ovaj projekat koristićemo javno dostupan skup podataka sa Kaggle-a, nazvan "Traffic Signs Dataset". Ovaj skup podataka sadrži više od 50.000 slika različitih saobraćajnih znakova, koji su podeljeni u 43 različite klase. Skup podataka je podeljen na trening i test skupove, a ukupna veličina skupa podataka iznosi oko 300 MB. Slike su prikupljene u različitim uslovima osvetljenja i vremenskim uslovima, kako bi model bio robusan u realnim situacijama.

Metodologija:

Eksploracija skupa podataka: Prvi korak projekta je istraživanje i analiza skupa podataka kako bismo bolje razumeli strukturu, distribuciju klasa i eventualne izazove u podacima.
Izgradnja CNN modela: Za ovaj projekat koristićemo konvolutivne neuronske mreže (CNN) za obradu slika. Model je Sequential i bice dizajniran tako da ima složenije konvolucione i potpuno povezane slojeve radi izdvajanja relevantnih karakteristika saobraćajnih znakova.
Treniranje i validacija modela: Nakon izgradnje modela, sprovodićemo trening na trening skupu podataka. Validacija će biti izvršena na posebnoj validacionoj grupi kako bismo pratili tačnost i gubitak modela tokom treninga. Parametri modela će se podešavati kako bismo postigli što bolje performanse.
Testiranje modela sa test skupom: Konačna evaluacija modela će se izvršiti korišćenjem odvojenog test skupa podataka. Testiranje će nam omogućiti da ocenimo kako se model ponaša na nepoznatim podacima.

Evaluacija:

Model će biti treniran na trening skupu podataka uz podelu od 80% trening i 20% validacija.
Rezultati će biti detaljno analizirani kroz grafički prikaz tačnosti i gubitka tokom treninga i validacije. Očekujemo da će model postizati visoku tačnost na validacionom skupu.
Performanse modela će biti dodatno evaluirane kroz metrike kao što su preciznost, odziv i F1 skor na test skupu podataka kako bismo razmotrili eventualne korake za poboljšanje performansi.

Link do github-a

https://github.com/branislavstojkovic70/prepoznavanje-saobracajnih-znakova

Detekcija pravilnog izvođenja vežbi

Tim

Kristina Popov SV5/2020
Zorica Pešić SV50/2020

Asistent
Dragan Vidaković

Definicija problema
Detekcija položaja tela čoveka kako bi izbrojali koliko puta je uradio prepoznatu vežbu, s tim da će brojati samo ukoliko pravilno uradi vežbu. Cilj je motivisanje korisnika kroz prikaz broja pravilnih vežbi kako bi ih podstakli na održavanje tačnosti u izvođenju.

Skup podataka
Lični skup videa.

Metodologija
Za prepoznavanje vežbi koristićemo YOLOv4, a MediaPipe za detekciju ključnih tačaka na telu, radi utvrđivanja ispravnosti izvođenja vežbi. Za klasifikaciju SVM klasifikator.

Evaluacija
Accuracy, precision, recall, f1

Korišćenje video snimaka šahovskih partija za obučavanje modela za igranje

Tim

SV 21/2020 Nikola Savić
SV 33/2020 Jovan Šerbedžija

Asistent

Dragan Vidaković

Definicija problema

Projekat ima za cilj razvoj sistema dubokog učenja koji može analizirati video snimke šahovskih partija i prepoznati odigrane poteze, a zatim koristiti te informacije za učenje modela koji igra šah.

Skup podataka

Skup podataka će se kreirati ručno, snimanjem šahovskih partija (sa Chess.com)

Metodologija

Jedan video predstavlja jednu šahovsku partiju koja će biti podeljena na vremenske intervale koji predstavljaju poteze
Pri svakom potezu, za detekciju početnog i krajnjeg polja figure će se koristiti Hough transformacija za detekciju ivica, kako bi se registrovala razlika između stanja table pre i posle poteza.
Za identifikovanje tipa i boje figure koristiće se SVM klasifikator (edit) kao i Sequential MLP Model klasifikator.
Izlaz iz obrade videa će biti skup poteza odigranih u toj šahovskoj partiji što će biti ulaz za treniranje (edit) Feedforward neuronske mreže koja će nakon treniranja biti u stanju da igra šah.

Evaluacija

Evaluacija rezultata SVM klasifikatora i detekcije odigranog poteza će se meriti sledećim metrikama: tačnost, preciznost, odziv i f1 score
Evaluacija rezultata rekurentne neuronske mreže će se meriti u odnosu na rezultate StockFish chess engine-a za istu poziciju.