mecab
wondows平台, pip安装MeCab:
|
|
出现问题:
|
|
在网上找了一些资料, 一些日文资料写的云里雾里的, 比如这篇Windows環境でのMeCab(Python)のインストール(没有必要打开).
然后找到一篇中文的windows10+py36+MeCab安装总结, 按照步骤安装成功!
===我是分割线===
上文的有些步骤可以精简, 具体步骤可以如下:
1 在pip安装之前, 需要先安装MeCab.exe
懒得麻烦, 点我直接下载
2 安装, 中间有个选择字典编码, 选择UTF-8
3 安装python依赖包
首先, 需要把MeCab安装路径下的./bin/libmecab.dll
和./sdk/libmecab.lib
拷贝到python的./Lib/site-packages
下面.
然后, 就可以使用pip install mecab-python-windows
安装依赖包了.
4 测试
|
|
参考:
https://segmentfault.com/q/1010000015969023
https://blog.csdn.net/ZYXpaidaxing/article/details/81913708
https://www.jianshu.com/p/8f0ce2cff8d9
MeCab使用
|
|
mecab ipadic字典提取
因为ipadic字典是用csv保存的, 因此还是很好提取的.
需要注意的是, 在打开csv时, 选择的文本编码是shift-jis
.
比如说提取地点Noun.place.csv
wikipedia dictionary download(日本语)
https://www.zhihu.com/question/19803440
https://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD
google wikipedia dictionary 日本語ダウンロード
下面是翻译成中文的
日文: https://dumps.wikimedia.org/jawiki/latest/
中文: https://dumps.wikimedia.org/chwiki/latest/
随便下载一个: chwiki-latest-geo_tags.sql
注意, 这是sql文件, 即为可执行的文件, 包含创建数据库和插入数据, 并不是数据库文件, 这个可以直接使用文本编辑软件打开
但是里面好像并没有什么…
中文搞错了, 应该是这个: https://dumps.wikimedia.org/zhwiki/latest/