🏞️多模态模型可以融合多少模态?Apple:≥ 21技术分享Apple 的 4M 项目通过创新的多模态融合技术,成功将 21 种不同类型的数据模态嵌入统一的模型框架中,实现了跨模态检索、生成和编辑等任务。2024-7-6 MML 多模态模型 多模态学习 ImageBind 4M Apple Meta Multimodal Learning MaskGIT Transformer
🏞️图像 Token 化:视觉数据转换的关键技术技术分享本文介绍了图像或视频数据的 token 化技术,包括 VQ-VAE、dVAE、VQGAN、TiTok 1D Tokenizer 及 OmniTokenizer 等模型,这些技术通过编码器、向量量化器和解码器将图像转换为离散的 token 序列,以便于模型处理和生成高质量的图像。2024-7-1 Multimodal Learning 多模态学习 VLP Tokenizer VAE VQVAE VQGAN TiTok MaskGIT Transformer OmniTokenizer MML
🪙更精准的硬币识别多模态模型:Coin-CLIP开源工具Coin-CLIP:硬币多模态模型,针对硬币图片具有更强的特征提取能力,可以实现更精准的以图搜图功能。2023-12-8 硬币识别 硬币检索 coin-recognition Coin-CLIP CLIP coin-retrieval usa-coins 多模态学习 Multimodal Learning 多模态模型 对比学习 模型下载 工具 coin-identification
比LLM更重要的多模态学习技术分享上周线下分享的文字版,介绍了多模态学习的概念、意义、模型架构、代表模型和挑战等。2023-6-25 Multimodal Learning 多模态学习 CLIP ImageBind BLIP-2 MM-CoT VLP
本周日线下分享:《比LLM更重要的多模态学习》技术分享本周日下午在清华MEM大讲堂的线下科普类分享,会提到多模态学习的定义、作用、代表模型、挑战等。2023-6-16 Multimodal Learning 多模态学习 CLIP 线下分享