目前有两个开源项目: langid 和 langdetect
pip install langdetect
项目地址:https://github.com/Mimino666/langdetect
但是使用langdetect来判断中文时候就会爆出错误
# -*- coding:utf-8 -*- from langdetect import detect str = '你好' print detect(str)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
但是使用判断英文时候就是正常的,这个时候用来做字符串检测不太好使了。
pip install langid
项目地址:https://github.com/saffsd/langid.py
使用另一个项目langid 来做检测还算正常,
# -*- coding:utf-8 -*- import langid s1 = "你好" array = langid.classify(s1) print array[0]
关键字词:
相关文章
- python 经常报错'module' object has no attribute 'X509_up_ref'
- python安装cv2 无法安装
- Python3 字典的复制与修改
- Python3 print 不换行打印教程
- Python3 bytes to string 字节码转字符串
- Scrapy Proxy Python下爬虫使用代理
- Scrapy 爬虫入门 内建设置参考 Python爬虫教程实战
- Scrapy 爬虫入门 Items 与 Item Pipeline Python爬虫教程实战
- Scrapy 爬虫入门 Spider 与 Selectors (选择器) Python爬虫教程实战
- Scrapy 实战准备 Python爬虫教程实战