🏞️图像 Token 化:视觉数据转换的关键技术技术分享本文介绍了图像或视频数据的 token 化技术,包括 VQ-VAE、dVAE、VQGAN、TiTok 1D Tokenizer 及 OmniTokenizer 等模型,这些技术通过编码器、向量量化器和解码器将图像转换为离散的 token 序列,以便于模型处理和生成高质量的图像。2024-7-1 Multimodal Learning 多模态学习 VLP Tokenizer VAE VQVAE VQGAN TiTok MaskGIT Transformer OmniTokenizer MML