Semalt: راهنمای scraping HTML - نکات برتر

محتوای وب بیشتر در قالب های ساختار یافته یا HTML است. هر صفحه بسته به نوع محتوای موجود در آن ، به روش منحصر به فرد خود سازماندهی می شود. اگر شخصی بخواهد اطلاعات وب را استخراج کند ، آرزوی هر شخص است که داده ها را به شکلی ساختار یافته و منظم به دست آورد. این به صرفه جویی در زمان مورد نیاز برای بررسی ، تجزیه و تحلیل و سازماندهی سند قبل از به اشتراک گذاری آن کمک می کند. با این حال ، دریافت قالب ساختاری کار آسانی نیست زیرا بیشتر وب سایتها این گزینه را برای جلوگیری از استخراج مقدار زیادی از داده ها ارائه نمی دهند. با این حال ، برخی از سایتها API را ارائه می دهند که در یک فرآیند سریع و آسان گزینه استخراج اطلاعات را برای افراد فراهم می کند.

در چنین رویدادهایی چاره ای جز استفاده از کمک برنامه نویسی نرم افزار معروف به scraping نخواهید داشت. این رویکرد است که با استفاده از برنامه رایانه ای به کاربران کمک می کند تا اطلاعات را با قالب مفید و حفظ ساختار داده ها جمع آوری کنند.

Lxml و درخواست

این یک کتابخانه ضایعات گسترده است که به تجزیه و تحلیل و ارزیابی سریع XML و HTML کمک می کند و به صرفه جویی در وقت کمک می کند. همچنین در پردازش با برچسب های آشفته در فرآیند تجزیه و تحلیل مفید است. در این روش ، شما از درخواست های Lxml به جای urllib2 داخلی استفاده می کنید زیرا سریع تر ، محکم و به راحتی در دسترس است. نصب آن با استفاده از درخواست نصب install Lxml و pip نصب آسان است.

برای scraping HTML این مراحل را دنبال کنید

با واردات شروع کنید - در اینجا HTML را از Lxml وارد می کنید ، سپس درخواست واردات را وارد می کنید. از درخواست استفاده کرده و سپس صفحه وب را که حاوی داده هایی است که می خواهید استخراج کنید ، ردیابی کنید ، آن را با ماژول HTML آنالیز کنید و سپس داده های تجزیه شده را در درخت ذخیره کنید.

شما نیاز به استفاده از محتوای صفحه دارید تا متن ، زیرا HTML انتظار دارد که ورودی را با بایت دریافت کند. درخت ، جایی که داده های تحلیل شده خود را ذخیره کرده اید ، حاوی سند HTML در یک ساختار درخت است. در روشهای مختلف ، XPath و CSSelect می توانید از ساختار درخت فراتر بروید.

XPath به شما کمک می کند تا اطلاعات را بازیابی کنید یا آن را در قالب ساختاری مانند HTML یا XML بدست آورید. روشهای مختلفی وجود دارد که می توانید عناصر XPath را بدست آورید. این موارد شامل Firebug برای Firefox یا Chrome Inspector است. هنگام استفاده از Chrome ، بازرسی اطلاعات آسان است زیرا فقط باید روی عنصری که نیاز به بازرسی دارد کلیک راست کنید ، "عنصر بازرسی" را انتخاب کنید ، کد ارائه شده را برجسته کرده و سپس راست کلیک کرده و کپی XPath را انتخاب کنید. این فرایند به شما کمک خواهد کرد که عناصر موجود در صفحه خود را پیدا کنید و از آنجا ، می توانید به راحتی یک سؤال XPath درست کنید و Lxml XPath را به درستی بکار بگیرید.

طی این مراحل اطمینان حاصل می شود که تمام داده های مورد نظر برای استخراج از یک وب خاص را با استفاده از Lxml و درخواست ها حذف کرده اید. اطلاعات ذخیره شده را در یک حافظه دو لیست خواهید داشت و اکنون آماده مرتب سازی است. شما می توانید آن را با استفاده از یک زبان برنامه نویسی مانند پایتون تجزیه و تحلیل کرده یا آن را ذخیره کرده و آن را به اشتراک بگذارید. همچنین ، ممکن است بخواهید قبل از به اشتراک گذاشتن آن ، بخشی از اطلاعات را بازنویسی یا ویرایش کنید.