法国私人AI实验室PleIAs在Mozilla.org的博客中宣布,他们致力于公开训练大语言模型(LLMs),不仅发布模型,还确保训练数据和代码的透明性。近日,PleIAs发布了全球最大的开放多语种预训练数据集Common Corpus,包含超过2万亿个符号,并设有清晰的数据来源。 该数据集具有多语言、多样化和经过严格审核的特点,支持开放AI的发展。此举在面对欧盟AI法案等新法规时,为高质量大模型的训练提供了可能性。 与此同时,AMD也发布了首个完全开放的10亿参数语言模型OLMo。 非营利组织艾伦人工智能研究所在上个月推出了Molmo,一个开源的多模态AI模型系列,性能超越OpenAI的GPT-4o等多个商业对手。