所以,ModernBERT在训练时使用了多种数据,包括网络文档、编程代码和科学文章,覆盖了2万亿token,其中大部分是独一无二的,而不是之前encoders中常见的20-40次的重复数据。
西风 发自 凹非寺量子位 | 公众号 QbitAI 时隔6年,一度被认为濒死的“BERT”杀回来了—— 更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源!