Até o presente momento, o dataset da ReINVenTA compõe-se de 3 subcorpora:
Composto pelos dez episódios da primeira temporada do TV Travel Log Pedro pelo Mundo, exibido pelo canal GNT. Foi anotado para frames, elementos de frames e categorias de objetos reconhecíveis por algoritmos de visão computacional para as modalidades de vídeo, áudio original e legendas.
>Baixe o dataset.
Composto de curtas-metragens audiodescritos e legendados com closed captions. Está sendo anotado para frames, elementos de frames e categorias de objetos reconhecíveis por algoritmos de visão computacional para as modalidades de vídeo, áudio original, audiodescrição, closed captions e legendas.
Expansão do dataset Multi 30k para o Português do Brasil, com a adição de 5 descrições de imagens originalmente produzidas em português e 1 descrição traduzida do inglês para cada uma das cerca de 30 mil imagens do dataset Flickr 30k. Conta, ainda com a anotação automática para frames de todas as legendas em inglês e em português, além da anotação manual, para frames e elementos de frame, de bounding boxes desenhadas nas imagens no âmbito do dataset Flickr 30k Entities.
>Baixe o dataset.
Acesse o Dashboard da ReINVenTA para acompanhar o progresso da anotação em tempo real.