Git Product home page Git Product logo

multimodal_understanding's Introduction

Multi modal understanding model based on VL-KE-T5

이 저장소는 복합 대화를 위한 멀티 모달 이해 모델 version 2.0에대한 코드와 모델 및 데이터를 포함 합니다.

Version history

Version 1.0

복합 대화를 위한 멀티 모달 이해 모델을 VL-KE-T5을 기반으로 하여 학습하였습니다. 이해 모델의 성능을 보이기 위해, 패션 이미지의 representation과 패션 이미지에 대한 텍스트의 representation을 정렬하도록 하고 텍스트가 주어졌을 때 관련 이미지를 검색하는 기능을 구현하였습니다. 이를 위해 공개 데이터인 kfashion dataset을 사용하였습니다.

단순한 텍스트에 대한 이미지는 잘 찾지만, 복잡하고 많은 속성을 표현한 텍스트가 주어졌을 때는 검색 성능이 떨어지는 한계가 있었습니다.

Version 2.0 (현 repository 내용)

Version 1.0에서의 한계를 극복하고자 이미지 생성 기반 검색 기술을 제안하였습니다. Text encoder가 복잡한 텍스트의 representation을 잘 표현하지 못한다는 한계에 착안하여 image encoder만 사용하는 방식을 구상했습니다.

구체적으로, 텍스트가 주어지면 text-to-image diffusion model을 사용하여 이미지를 생성하고, image encoder로 representation을 구한 뒤 비슷한 representation의 다른 image를 검색하는 방식입니다.

필요 패키지 설치

    pip install torch
    conda install -c pytorch faiss-gpu # or faiss-cpu
    pip install transformers sentencepiece

faiss의 자세한 설차 방법은 FAISS를 참고하시길 바랍니다.

필요한 파일 설정

1. 파일 다운로드

2. 파일 폴더 구조 설정

mkdir -p <project_dir>/result/simple_query_ko
unzip fvecs.zip
unzip hf_model.zip
mv fvecs hf_model <project_dir>/result/simple_query_ko
mv kfashion_images_group.tsv <project_dir>/../

mkdir -p <project_dir>/text_generated_image_to_image_retriever/data/
mv em_group_table.json <project_dir>/text_generated_image_to_image_retriever/data

검색 기능 실행 방법

python text_generated_image_to_image_retriever/main_gradio_comparison.py

실행 화면

image retriever based on image generation

Acknowledgement

본 연구는 정부(과학기술정보통신부)의 재원으로 지원을 받아 수행된 연구입니다. (정보통신기획평가원, 2022-0-00320), (정보통신기획평가원, 2022-0-00608), (정보통신기획평가원, 2021-0-00537), (정보통신산업진흥원, S0316-21-1002)

TODO

  • 생성된 image로 image encoder fine-tuning
  • label 정보를 활용한 supervised training
  • 정량적 검색 성능 평가

multimodal_understanding's People

Contributors

cp4419 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.