发布时间:2023-03-22 14:18:00 来源:互联网
赖可 发自 凹非寺
量子位 报道 | 公众号 QbitAI
专注NLP的强大团队抱抱脸(hugging face)又发新资源!这一次是帮助NLP过程中,词语切分(tokenization)更快的Tokenizers。
只要20秒就能编码1GB文本,适用Rust、Python和Node.js,已经在GitHub上获得了800多星。
前不久,这个团队也凭借自己的技术实力获得了1500万美元的天使投资。
在NLP模型训练中,词语标记和切分往往是一个瓶颈。Tokenizer能够训练新的词汇,并且进行标记。
功能多样:适用于BPE/byte-level-BPE/WordPiece/SentencePiece各种NLP处理模型。
可以完成所有的预处理:截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。
速度超级快:只需要20秒就可以在CPU上标记1GB的文本。
目前适用三种编程语言:Rust/Python/Node.js
github的资源页面上提供了在Python上使用Tokenizers的示例,进行简单的设置就可以使用:
也可以用Tokenizers进行新词训练:
虽然目前只可用于三种语言Python、JS、Rust,抱抱脸团队表示,将来会继续升级以适用更多~
抱抱脸团队是一个创业团队。他们的Transformers是github上最火的NLP项目,已经获得了20K星。
作为专注于自然语言处理的创业公司,他们的目标是开发一个可以使用文字、照片、表情包的聊天机器人,名字叫做social AI 。
目前已经经过了三轮融资,共2000万美元。其中,在2019年底的A轮融资中,公司获得了1500万美元,并打算将员工增加两倍。
目前公司尚未盈利。创始人Clement Delangue在获得A轮融资后表示,除了对话AI之外,公司正在构建通用的NLP技术,希望让NLP技术满足公司的多样化需求。
https://github.com/huggingface/tokenizers
参考资料
https://techcrunch.com/2019/12/17/hugging-face-raises-15-million-to-build-the-definitive-natural-language-processing-library/
https://www.alleywatch.com/2019/12/hugging-face-natural-language-processing-open-source-clement-delangue/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
2相关攻略
国内买币违法吗 - 国内如何买币
07-02
脱虚向实,数字藏品回归日常,数字版权真实赋能文化产业
07-02
10款主流币种钱包下载汇总(火币钱包官网 专业的多币种钱包
07-02
以太坊几号合并 - 以太坊啥时候出来的
07-02
Wb3音乐平台Audius将集成TikT app官网下载
07-02
雷达币现在多少钱一枚2022 - 雷达币2022年价格
07-02
tockn[t app官网下载npockt钱包下载官网]
07-02
中本聪COR的最新消息最近什么情况中本聪会上市吗简介
07-02
YFI短时涨超9200美元,24小时涨幅为9.03%
07-02
数字货币今年能落地吗(数字货币今年能落地吗知乎
07-02
Solana基金会:Solana网络继续表现良好
07-02
fanbo app官网下载官网(facbo app官网下载
07-02
热门攻略推荐
国内买币违法吗 - 国内如何买币
2023-07-02
脱虚向实,数字藏品回归日常,数字版权真实赋能文化产业
2023-07-02
10款主流币种钱包下载汇总(火币钱包官网 专业的多币种钱包
2023-07-02
以太坊几号合并 - 以太坊啥时候出来的
2023-07-02
Wb3音乐平台Audius将集成TikT app官网下载
2023-07-02
雷达币现在多少钱一枚2022 - 雷达币2022年价格
2023-07-02
tockn[t app官网下载npockt钱包下载官网]
2023-07-02
中本聪COR的最新消息最近什么情况中本聪会上市吗简介
2023-07-02
YFI短时涨超9200美元,24小时涨幅为9.03%
2023-07-02
数字货币今年能落地吗(数字货币今年能落地吗知乎
2023-07-02