🏞️多模态模型可以融合多少模态?Apple:≥ 21技术分享Apple 的 4M 项目通过创新的多模态融合技术,成功将 21 种不同类型的数据模态嵌入统一的模型框架中,实现了跨模态检索、生成和编辑等任务。2024-7-6 MML 多模态模型 多模态学习 ImageBind 4M Apple Meta Multimodal Learning MaskGIT Transformer
🏞️图像 Token 化:视觉数据转换的关键技术技术分享本文介绍了图像或视频数据的 token 化技术,包括 VQ-VAE、dVAE、VQGAN、TiTok 1D Tokenizer 及 OmniTokenizer 等模型,这些技术通过编码器、向量量化器和解码器将图像转换为离散的 token 序列,以便于模型处理和生成高质量的图像。2024-7-1 Multimodal Learning 多模态学习 VLP Tokenizer VAE VQVAE VQGAN TiTok MaskGIT Transformer OmniTokenizer MML