Hogyan lehet kaparni weboldalakat a Python segítségével

Előfordulhat, hogy érdemes egy webhelyről más formátumban kinyernie az adatokat. De mi van akkor, ha a weboldalnak nincs egyszerű módja az adatok exportálására? Itt jön be a webes kaparás.

Kiadtunk egy összeomlási tanfolyamot a freeCodeCamp.org YouTube-csatornán, amely megtanítja Önt, hogyan hajtsa végre a webes kaparást a Beautiful Soup Python könyvtár segítségével.

Ezt a tanfolyamot Jim Ergin fejlesztette ki a JimShapedCoding-től. Jim évek óta használja és tanítja a Pythont.

A Gyönyörű leves lehetővé teszi, hogy bármilyen kívánt információt összegyűjtsön bármelyik kívánt webhelyről. Ez lehet banki oldal, közösségi média, Wikipédia vagy bármely más webhely.

A Beautiful Soup módszereket kínál az elemzési fában történő navigáláshoz, kereséshez és módosításhoz. Ez megkönnyíti a HTML-dokumentumok boncolását és a szükséges adatok kinyerését. Az alkalmazás megírásához pedig nem kell sok kód.

Ezen a tanfolyamon először megtudhatja, hogyan lehet egy alapvető HTML oldalt kaparni, csak a fogalmak megismerése érdekében. Ezután folytatja a valódi weboldal súrolását. A végén megtudhatja, hogyan tárolja a webhelyről lekapart információkat.

Itt vannak a kurzus témái:

  • Alapvető HTML-felépítés, HTML-címkék magyarázata
  • Csomagok telepítése
  • A helyi fájlok kaparása
  • Gyönyörű leveskeresés és keresés_all () metódusok
  • Webböngésző ellenőrző eszköz
  • Az árak megragadása egy alapvető web-kaparási projektben
  • A kérések könyvtárának használata a webhely HTML-jének megtekintéséhez  
  • A gyártási weboldal lekaparása
  • Hurok a hasonló leves.find_all () objektumok között
  • A lekapart munkák szűrése
  • Projekt létrehozása 10 percenként kaparásra
  • A jobok bekezdésének tárolása szöveges fájlokban

Nézze meg a teljes összeomlási tanfolyamot a freeCodeCamp.org YouTube csatornán (1 órás nézés).