Semalt Inakuza Hatua 5 za Kufuta Kurasa za Wavuti

Scrapy ni chanzo wazi na mfumo wa kupata habari kutoka wavuti tofauti. Inatumia APIs na imeandikwa katika Python. Scrapy kwa sasa inadumishwa na kampuni ya kuvinjari wavuti inayoitwa kama Scrapinghub Ltd.

Ni mafunzo rahisi ya jinsi ya kuandika mtambaa wa wavuti kwa kutumia Scrapy, angalia Craigslist na habari ya duka katika muundo wa CSV. Hatua tano kuu za mafunzo haya zimetajwa hapa chini:

1. Unda mradi mpya wa Scrapy

2. Andika buibui ili kutambaa tovuti na dondoo ya data

3. Hamisha data iliyosuguliwa kwa kutumia mstari wa amri

4. Badilisha buibui kufuata viungo

5. Tumia hoja za buibui

1. Unda mradi

Hatua ya kwanza ni kuunda mradi. Utalazimika kupakua na kusanikisha Scrapy. Katika upau wake wa utaftaji, unapaswa kuingiza jina la saraka ambapo unataka kuhifadhi data. Scrapy hutumia buibui tofauti kupata habari, na buibui hizi hufanya maombi ya awali kuunda saraka. Ili kuweka buibui kufanya kazi, unahitaji kutembelea orodha ya saraka na kuingiza nambari fulani huko. Weka macho kwenye faili kwenye saraka yako ya sasa na gundua faili mbili mpya: nukuu-a.html na nukuu-b.html.

2. Andika buibui ili kutambaa tovuti na kutoa data:

Njia bora ya kuandika buibui na data ya dondoo ni kuunda wateule tofauti kwenye ganda la Scrapy. Unapaswa kukumbatia URL zote wakati wote kwa nukuu; la sivyo, Scrapy itabadilisha asili au majina ya URL hizo mara moja. Unapaswa kutumia nukuu mara mbili karibu na URL ili kuandika buibui ipasavyo. Unapaswa kutumia.extract_first () na epuka hitilafu ya index.

3. Hamisha data iliyolipiwa kwa kutumia simu ya amri:

Ni muhimu kusafirisha data zilizopigwa kwa kutumia mstari wa amri. Ukikosa kuuza nje, hautapata matokeo sahihi. Buibui itatoa saraka tofauti zilizo na habari muhimu. Unapaswa kutumia maneno kuu ya Python kuuza nje habari hii kwa njia bora. Kuingiza data kwa faili za JSON inawezekana. Faili za JSON ni muhimu kwa watengenezaji wa programu. Vyombo kama JQ husaidia kusafirisha data zilizopandwa bila shida yoyote.

4. Badilisha buibui kufuata viungo:

Katika miradi midogo, unaweza kubadilisha buibui kufuata viungo ipasavyo. Lakini sio lazima na miradi ya data ya ukubwa wa data kubwa . Faili ya kishika nafasi cha Bomba za Bidhaa itaundwa wakati utabadilisha buibui. Faili hii inaweza kuwa iko kwenye sehemu ya mafunzo / mabomba.py. Na Scrapy, unaweza kuunda buibui za kisasa na ubadilishe eneo lao wakati wowote. Unaweza kutoa tovuti nyingi kwa wakati mmoja na kutekeleza miradi kadhaa ya uchimbaji data.

5. Tumia hoja za buibui:

Simu ya parse_author ni hoja ya buibui ambayo inaweza kutumika kupata data kutoka kwa tovuti zenye nguvu. Unaweza pia kutoa hoja za mstari wa amri kwa buibui na msimbo fulani. Hoja za buibui zinakuwa sifa za buibui kwa wakati wowote na hubadilisha mtazamo wa jumla wa data yako.

Katika mafunzo haya, tulifunua tu misingi ya Scrapy. Kuna mengi ya huduma na chaguzi za zana hii. Unahitaji tu kupakua na kuamsha Scrapy ili ujue zaidi juu ya maelezo yake.