H

Re:WikiExtractorで躓いた話

追記あり

 

こっちも参照

scuser.hatenablog.jp

 

普通にGithubからダウンロードしたWikiExtractorを、そのまま使おうとした時、そのエラーは起こる。

 

ImportError: attempted relative import with no known parent package

 

 

日本語に翻訳すると、

ImportError:既知の親パッケージがない状態で相対インポートを試行しました

となる。

 

Usageの

 

python -m wikiextractor.WikiExtractor <Wikipedia dump file> [--templates <extracted template file>]

 

に従ってやれば成功するらしい。

 

追記:

TypeError: cannot pickle '_io.TextIOWrapper' object

というエラーが出ました。

 

(結論:古いverでやったほうが良い。自信が無いのでカッコの中に書きました。) 

 

参照:

GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps

 

Python - Wikipadiaの全文データをWikiExtractorで文章だけ抽出したい|teratail

 

 

------2021-06-20追記-----

 

確実に成功させる方法

CUILinuxCentOS)を使っていてエラーが出ない方法を見つけたので報告

 

まずwikipediaのデータをゲットするところから。CUIなのでwgetを使って

wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

 

を実行します。

で次にgitを使います

git clone https://github.com/attardi/wikiextractor

を実行して、クローンします。

次に

cd wikiextractor

というコマンドを実行して、

python3 wikiextractor.WikiExtractor ~/.jawiki-latest-pages-articles.xml.bz2

 

とやるとできます。

多分Windwosでも同じだと思う。