选自code.facebook机器之心编译参与:李泽南
fastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。Facebook在此前的研究中宣称人们可以使用一个标准多核CPU在十分钟内完成fastText上10亿多词的训练,并在一分钟内将50万个句子分成31.2万个类别。去年8月,Facebook将这一技术开源。
昨天,Facebook人工智能研究院(FAIR)进一步拓展了fastText的应用范围,他们发布了支持种语言的预训练矢量文件包,并配有两个快速入门教程,为学生、软件开发者和机器学习研究人员提供了更多支持。同时,随着fastText模型内存使用量的减少,它现在已经可以装进手机和树莓派这样的小型计算设备中了。
在小内存设备上的fastText
为了让更多人和应用在移动端享受到fastText带来的便利,Facebook本次推出的新版本降低了fastText模型的内存需求。基于早期版本fastText构建的模型通常需要几G的内存,而新版本只需要数百Kb。
FAIR团队的研究者们通过最近发布的FAISS(一种用于高维度向量相似性搜索和聚类的开源库)压缩了fastText模型和内存使用量。对此,研究团队发表了一篇论文《FastText.zip:CompressingTextClassificationModels》描述了两个研究项目的整合研究。
论文链接: