Python習得奮闘記 #04

奮闘記

勉強に使う本とその理由

さて、今回使う本は「Python2年生 スクレイピングのしくみ」で、スクレイピングについて学んでいこうと思います。なぜこれを選んだかというと、最初に読んだ「Python1年生」の続きというか、次に読むようなシリーズの本であったというのが一番の理由です。もう一つの理由としては、スクレイピングという言葉は聞いた事はあって、なんか自動でデータを持ってくるみたいな感じだとは思っていて、やってみたいと思ってたけど、何もやってこなかったので、ちょうどPythonを学ぶと決めたし、Pythonを使ってスクレイピングをやるってなるとやるしかないでしょという事になったからです。

やはり管理職になると、数字を扱う事が多くはあって、頭ではこういう風にデータを出したいであったり、こういう風にしたらいけるとわかるのに、それを実際にエクセルとかGoogleスプレッドシートでやろうとするとあまりうまくいかなかったり、自動化したとしても、修正箇所が多くなったり、かなりめんどうになってきている事もあるので、そういうのも含め、学んでいきたいなって思います。実際に理解できるようになるかは、本を読み終わるころにわかると思うので、これから読んでいきます。

最初の前半30分で何がわかったのか

最初は事前準備として、Pythonのダウンロードは毎回あるので、スキップしましたが、「requests」というライブラリをダウンロードして、HTMLファイルを読み込むという事から始まりました。まぁリクエストっていってるので、どっかに何かを要求して、それに対して、反応を返してくれるんじゃないかってのは想像つくし、なんか「リクエスト」って勝手なイメージですが、エンジニアの方とかよく使う言葉な気がして、っぽい感じしますね。実際にHTMLをテキストファイルにして読み込んでみて、色々表示されたって感じでした。

そのあとは、「Beautiful Soup」っていうHTMLを解析するライブラリをインストールして、やってみても、その時は何が違うのかわからなかったです。ですけど、そこからtitleを抽出したり、h2を抽出したりと、HTMLの指定した部分を抽出できる事がわかりました。ただ、これをしてどうするの?っていうのが正直な感想。

でもそこからは、かたまりの部分を抽出するやり方を学び、ここで多分知っておくべき事としては、HTMLの全部を表示するっていうより、その中から必要な部分も抽出してくる事ができるよっていう事がわかれば良いんじゃないかなって勝手に思っています。

ちなみにスクレイピングは気をつけなきゃいけない事があって、利用規約とかにスクレイピング禁止とかであったり、なんかサーバーに負荷がかかりすぎたりするから場合によっては妨害みたいになるからサーバーに負荷かからないように配慮も必要とのことです。なので、むやみにやったら違反とかになるので、ちゃんとスクレイピングして良いサイトなのかとかは絶対に確認が必要ですね。

後半30分で何がわかったのか

次に青空文庫という著作権がなくなった文学作品が無料で見れるサイトらしく、そこにアクセスして、必要な情報を抜き取るというのを2,3個のパターンをやって、そのあと、リンク一覧をファイルに書き出すということをしました。これをいつ使うのかわからないけど、多分、なんか使う時期が来るんじゃないかなって思うことにします。前にも言ったように、すべてを理解するようにしていると多分性格的に進めなくなるので、スキップしますw

次は、ページ内にある画像ファイルを調べて、自動でダウンロードするというのをやり、サンプルの画像が表示されて、そこからダウンロードした時用のフォルダも自動で作ってそこのフォルダに入れるということをやって、ダウンロード用のフォルダに画像が全部保存されるっていう感じですね。これは多分色々応用して、一気に画像ファイルダウンロードしたりする事ありそうなので、今度、復習はしといた方が良さそうとだけメモしておきましょう!

まとめ

次の章が長そうなので、ここで一旦、止まるとしますが、取り急ぎ、いろんなライブラリをインストールから入りますが、これっていわゆるエンジニアさんとかプログラミングをする方はどれくらいの数入れてるのかちょっと気になったりします。多分、自分まだ2冊目ですが、5,6個はもうインストールしている気がします。でもこれが、ないと色々めんどうになるので、ライブラリから呼び出すってことを覚えた方がいいんですよねきっと。色々学んでいくうちに10個とかなんかキリのいいタイミングとかあったら、数えてみたいものですね。

それでは、次回までお楽しみに!

コメント

タイトルとURLをコピーしました