visual-question-answering

Here are 139 public repositories matching this topic...

OFA-Sys / OFA

Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

prompt chinese image-captioning pretrained-models visual-question-answering multimodal text-to-image-synthesis vision-language pretraining referring-expression-comprehension prompt-tuning

Updated Apr 24, 2024
Python

lucidrains / flamingo-pytorch

Star

Implementation of 🦩 Flamingo, state-of-the-art few-shot visual question answering attention net out of Deepmind, in Pytorch

deep-learning transformers artificial-intelligence attention-mechanism visual-question-answering

Updated Oct 18, 2022
Python

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense reasoning, and cross-modal retrieval).

image-captioning video-captioning visual-question-answering vision-and-language cross-modal-retrieval pretraining tden

Updated Feb 27, 2023
Python

jnhwkim / ban-vqa

Star

Bilinear attention networks for visual question answering

attention visual-question-answering bilinear-pooling pytorch-implmention

Updated Oct 30, 2023
Python

MMMU-Benchmark / MMMU

Star

This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"

machine-learning natural-language-processing deep-neural-networks computer-vision deep-learning evaluation question-answering stem multimodality multimodal-learning visual-question-answering multimodal multimodal-deep-learning foundation-models large-language-models llm llms large-multimodal-models

Updated May 19, 2025
Python

MILVLG / mcan-vqa

Star

Deep Modular Co-Attention Networks for Visual Question Answering

attention visual-reasoning visual-question-answering

Updated Dec 16, 2020
Python

MILVLG / openvqa

Star

A lightweight, scalable, and general framework for visual question answering research

benchmark deep-learning pytorch vqa visual-question-answering

Updated Sep 3, 2021
Python

MILVLG / prophet

Star

Implementation of CVPR 2023 paper "Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering".

pytorch visual-question-answering multimodal-deep-learning gpt-3 prompt-engineering okvqa a-okvqa

Updated Jun 14, 2025
Python

Cyanogenoid / pytorch-vqa

Star

Strong baseline for visual question answering

pytorch vqa baseline visual-question-answering

Updated Mar 13, 2023
Python

qiantianwen / NuScenes-QA

Star

[AAAI 2024] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario.

autonomous-driving visual-question-answering vision-language

Updated Nov 1, 2024
Python

MMStar-Benchmark / MMStar

Star

[NeurIPS 2024] This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation multimodality multimodal-learning visual-question-answering multimodal large-language-models llm llms large-vision-language-model large-vision-language-models large-multimodal-models lvlms lvlm

Updated Sep 26, 2024
Python

Yushi-Hu / tifa

Star

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

image-to-text text-to-image visual-question-answering large-language-models

Updated Apr 29, 2024
Python

markdtw / vqa-winner-cvprw-2017

Star

Pytorch implementation of winner from VQA Chllange Workshop in CVPR'17

pytorch visual-question-answering

Updated Feb 8, 2019
Python

antoyang / FrozenBiLM

Star

[NeurIPS 2022] Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

vqa video-understanding weakly-supervised-learning multimodal-learning visual-question-answering vision-and-language videoqa pre-training video-question-answering large-language-models

Updated Dec 9, 2024
Python

anisha2102 / docvqa

Star

Document Visual Question Answering

computer-vision deep-learning document-analysis visual-question-answering

Updated Jul 30, 2020
Python

zhegan27 / VILLA

Star

Research Code for NeurIPS 2020 Spotlight paper "Large-Scale Adversarial Training for Vision-and-Language Representation Learning": UNITER adversarial training part

visual-question-answering vision-and-language adversarial-training pretraining neurips-2020