込み入ったWebスクレイピング
最近全然ITから遠ざかっているので、JavascriptかPythonでも触ろうと思った。
さて、どんな情報を引っ張ってみようかな。
でも実利がないと触る気にならないので、何かWebから情報を拾ってきてDBに突っ込むことをやってみようと思い立った。
よってPython + Seleniumで、データを取ってくることをやろうと思う。
Seleniumは実際にWebブラウザを使ってデータを取ってくるからBeautifulSoupとかだと難しい認証画面を通った後の画面からデータを取ってくるということができる模様。
以前BeautifulSoupは使ったことがあったから、自分にとってNewなSeleniumにトライ。
PCが真新しいので、準備としてやったことは以下3点。
- Anacondaの新規インストール
- Anaconda Navigatorを起動して、Seleniumを探してApply
- ChromeDriverのコピー
特に注意することもない気がするのだけれど、ChromeDriverについてちょっとだけTips。
- Chromeのバージョンにあったものをダウンロードする
- 私の環境だとVersionは108だった。Chromeの設定-Chromeについて で確認
- ChromeDriverは一つのexeなので、それをPython.exeがあるのと同じところにコピーする
- 私の環境だとC:\Users\<ユーザー名>\anaconda3
from selenium import webdriverbrowser = webdriver.Chrome()browser.get('https://ldnsurf.com')
さて、どんな情報を引っ張ってみようかな。
本当はレンタルサーバーとかで動かせるものがよかったけれど、それだと、突っ込んだWebスクレイピングはできないので、手元のPCで動かす他ないのかなと思った。