🏞️图像 Token 化:视觉数据转换的关键技术技术分享本文介绍了图像或视频数据的 token 化技术,包括 VQ-VAE、dVAE、VQGAN、TiTok 1D Tokenizer 及 OmniTokenizer 等模型,这些技术通过编码器、向量量化器和解码器将图像转换为离散的 token 序列,以便于模型处理和生成高质量的图像。2024-7-1 Multimodal Learning 多模态学习 VLP Tokenizer VAE VQVAE VQGAN TiTok MaskGIT Transformer OmniTokenizer MML
比LLM更重要的多模态学习技术分享上周线下分享的文字版,介绍了多模态学习的概念、意义、模型架构、代表模型和挑战等。2023-6-25 Multimodal Learning 多模态学习 CLIP ImageBind BLIP-2 MM-CoT VLP