马毅教授CRATE-α模型首次证实白盒Transformer可扩展性

原标题：马毅教授CRATE-α模型首次证实白盒Transformer可扩展性

导读：

雷达财经出品文李亦辉编深海港股整体承压的背景下美团等权重股也大幅走低月日美团股价下跌盘中最低点港元股已跌破年月日的上市发行价港元股创逾年低点月日消息...

雷达财经出品文|李亦辉编|深海港股整体承压的背景下，美团等权重股也大幅走低。1月17日，美团股价下跌6.97%，盘中最低点68.15港元/股已跌破2018年9月20日的上市发行价69港元/股，创逾4年低点。

6月6日消息:马毅教授团队最近取得了显著的研究成果，他们开发的CRATE-α模型首次证实了白盒架构的可扩展性。这一进展对于自然语言处理（NLP）、图像处理和视觉计算领域的深度表征学习具有重要意义。

尽管Transformer架构及其变体在AI领域取得了巨大成功，但它们大多基于经验设计，缺乏严格的数学解释。CRATE模型通过数学推导得到每一层，提供了更好的可解释性。不过，CRATE的应用规模之前相对有限，与Vision Transformer的参数量相比有较大差距。

为了解决这一问题，研究团队提出了CRATE-α，它对稀疏编码块进行了策略性但最小化的修改，并设计了轻量级的训练方法，有效提高了CRATE的可扩展性。实验结果显示，CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上，CRATE-α-B和CRATE-α-L的准确率显著提高，同时保持了CRATE模型的可解释性。

研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调，证明了CRATE-α在不同像素块大小下的性能。此外，他们还采用了多模态数据集DataComp1B，包含14亿图文对，通过对比学习的方法训练CRATE-α，并使用优化的CLIPA协议减少计算资源消耗。

CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明，这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略，通过调整预训练阶段的图像token序列长度，在减少计算资源消耗的同时，保持了模型性能。

CRATE-α的语义可解释性也得到了提升，使用MaskCut评估模型捕获的丰富语义信息，CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展，也为未来的研究和应用开辟了新的道路。