Internet Explorereはサポートが終了します!
マイクロソフトからIEのサポート終了が発表されています。
サポートが終了すると、脆弱性が見つかったときなど適切なアップデートが行われず、危険に晒される可能性があります。
またウェブページによっては正しく表示されなくなる可能性があります。
この記事は残しておきますが、非推奨になる可能性があります。
HTMLとは
この記事は↓の続きで、IEを使ったスクレイピングのやり方を書いていきます。
VBAでウェブスクレイピング_IE操作編_その1 - 適材適所
↑の記事もご参照頂ければ幸いです。
↑の記事ではHTMLはウェブページの設計図のようなものであること、ブラウザはそれを頼りに、ページを表示していることを述べています。
VBAのコードに戻る前に、もう少しHTMLの理解に時間を裂きましょう。
理解のために、簡単なHTMLを見てみます。
<html> <body> Hello World </body> </html>
これをメモ帳などで拡張子を「.html」として、保存するとブラウザで開くことができます。
HTMLの正体はただのテキストなんです。
HTMLのすごいところは、「タグ」というものを文書の中に埋め込むことで、
その文書が構造を伴って、デザインできるようになるところ!!
このスクレイピングをするときも、htmlの構造とタグを分析することになるので、この辺りはちゃんと理解しておく必要があります。
タグとは
タグとは、htmlの中の色々な要素がどういった役割なのかを示すものです。
例えば、aタグはリンクであることを表し、imgタグは画像であることを表します。
タグは基本的に、<○○>~</○○>という形をとります。
○○がタグ名、内容が~になります。
また、タグにはこれ以外にも「属性」を与えることができます。
例えば、ウェブページにリンクを貼りたいときは、aタグを使いますが、リンク先のアドレスは属性を使って定義します。
<a href="sample.html">リンク先</a>