Re:WikiExtractorで躓いた話

こっちも参照

普通にGithubからダウンロードしたWikiExtractorを、そのまま使おうとした時、そのエラーは起こる。

ImportError: attempted relative import with no known parent package

日本語に翻訳すると、

ImportError：既知の親パッケージがない状態で相対インポートを試行しました

となる。

Usageの

python -m wikiextractor.WikiExtractor <Wikipedia dump file> [--templates <extracted template file>]

に従ってやれば成功するらしい。

追記：

TypeError: cannot pickle '_io.TextIOWrapper' object

というエラーが出ました。

（結論：古いverでやったほうが良い。自信が無いのでカッコの中に書きました。）

参照：

------2021-06-20追記-----

確実に成功させる方法

CUIのLinux（CentOS）を使っていてエラーが出ない方法を見つけたので報告

まずwikipediaのデータをゲットするところから。CUIなのでwgetを使って

を実行します。

で次にgitを使います

を実行して、クローンします。

次に

cd wikiextractor

というコマンドを実行して、

python3 wikiextractor.WikiExtractor ~/.jawiki-latest-pages-articles.xml.bz2

とやるとできます。

多分Windwosでも同じだと思う。