百川智能推出70亿参数量预训练大模型——baichuan-7b
发布时间:2023-06-16
信息来源:界面新闻
字体: 【 】
6月15日,搜狗创始人王小川的新公司百川智能推出了70亿参数量的中英文预训练大模型——baichuan-7b。目前,baichuan-7b大模型已在hugging face、github以及model scope平台发布。在构建预训练语料库方面,百川智能称其大模型以高质量中文语料为基础,同时融合了优质的英文数据。在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的筛选。在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。(界面新闻)
往期推荐
- 2023年券商分类评价工作启动2023-06-15
- 两部门:开展中小企业数字化转型城市试点工作2023-06-15
- 两办:构建优质均衡的基本公共教育服务体系2023-06-15