Re:WikiExtractorで躓いた話
※追記あり
こっちも参照
普通にGithubからダウンロードしたWikiExtractorを、そのまま使おうとした時、そのエラーは起こる。
ImportError: attempted relative import with no known parent package
日本語に翻訳すると、
ImportError:既知の親パッケージがない状態で相対インポートを試行しました
となる。
Usageの
python -m wikiextractor.WikiExtractor <Wikipedia dump file> [--templates <extracted template file>]
に従ってやれば成功するらしい。
追記:
TypeError: cannot pickle '_io.TextIOWrapper' object
というエラーが出ました。
(結論:古いverでやったほうが良い。自信が無いのでカッコの中に書きました。)
参照:
GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps
Python - Wikipadiaの全文データをWikiExtractorで文章だけ抽出したい|teratail
------2021-06-20追記-----
確実に成功させる方法
CUIのLinux(CentOS)を使っていてエラーが出ない方法を見つけたので報告
まずwikipediaのデータをゲットするところから。CUIなのでwgetを使って
wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
を実行します。
で次にgitを使います
git clone https://github.com/attardi/wikiextractor
を実行して、クローンします。
次に
cd wikiextractor
というコマンドを実行して、
python3 wikiextractor.WikiExtractor ~/.jawiki-latest-pages-articles.xml.bz2
とやるとできます。
多分Windwosでも同じだと思う。