scraping وب عمل استخراج داده ها ، اطلاعات یا تصاویر از وب سایت با استفاده از روش خودکار است. به عنوان کپی و چسباندن آن روی اتوماتیک اتوماتیک فکر کنید.
ما برای رفتن به وب سایت هایی که می خواهیم آن را بنویسیم یا از آنها استفاده کرده ایم و یک نسخه از موارد خاص مورد نظر را از آن وب سایت ها تهیه کرده ایم. بسیار دقیق تر از بارگیری یک وب سایت کامل.
مانند هر ابزاری ، از scraping وب می توان برای خوب یا بد استفاده کرد. برخی از دلایل بهتر برای وب سایت های scrap ، رتبه بندی آن در موتور asearch هستند. براساس محتوای آن ، خرید مقایسه قیمت یا نظارت بر اطلاعات بازار دامداری حتی ممکن است از آن به عنوان یک ابزار تحقیقاتی انواع استفاده کنید.
چگونه می توانم وب سایتها را با اکسل خراش دهم؟
باور کنید یا نه ، اکسل حداقل از زمان اکسل 2003 قادر به استخراج وب سایت های datafrom برای مدت زمان طولانی است. webscraping چیزی است که اکثر مردم به آن فکر نمی کنند ، چه رسد به استفاده از برنامه aspreadsheet برای انجام کار. اما به طرز شگفت آور آسان و قدرتمندی است. بیاموزید که چگونه این کار را با ساخت مجموعه ای از صفحه کلیدهای صفحه کلید Microsoft Office انجام داده است.
یافتن سایت هایی که می خواهید برای خراش دادن استفاده کنید
اولین کاری که می خواهیم برای انجام این کار ، یافتن صفحات وب خاصی است که از آنها می خواهیم اطلاعات کسب کنیم. بیایید به منبع برویم و در https://support.office.com/ جستجو کنیم. ما می خواهیم از عبارت جستجوی "میانبرهایی که اغلب استفاده می شوند" استفاده کنیم. ما می توانیم با استفاده از نام برنامه خاص مانند Outlook ، Excel ، Word و غیره آن را خاص تر کنیم. شاید ایده خوبی باشد که صفحه نتایج را علامت گذاری کنیم تا بتوانیم به راحتی به آنجا برگردیم.
بر روی نتیجه جستجو "کلیدهای میانبر صفحه کلید در Excel forWindows" کلیک کنید. پس از آن صفحه ، لیست نسخه های اکسل را پیدا کنید و روی نسخه های جدیدترکلیک کنید. اکنون ما با جدیدترین و بهترین ها کار می کنیم.
ما می توانیم به صفحه نتایج جستجوی خود برگردیم و برای همه برنامه های Office دیگر در برگه های خود بازگردیم و آنها را علامت گذاری کنیم. این ایده خوبی است ، حتی برای این تمرین. اینجاست که بیشتر مردم متوقف می شوند که میانبرهای Office را نادیده بگیرند ، اما نه ما. ما می خواهیم آنها را در اکسل قرار دهیم تا هر زمان که بخواهیم ، هر کاری را که می خواهیم با آنها انجام دهیم.
اکسل و Scrape
را باز کنید و اکسل را باز کنید و یک کارنامه جدید شروع کنیم. کتاب کار را به عنوان میانبرهای دفترذخیره کنید. اگر OneDrive دارید ، آن را در آنجا ذخیره کنید ، بنابراین ویژگی ویژگی
پس از ذخیره کتاب ، روی برگه دادهکلیک کنید.
در روبان برگه داده ، روی از وبکلیک کنید.
برنامه جادوگری از وبباز خواهد شد. اینجاست که ما آدرس وب یا URL وبسایت را که می خواهیم داده ها را خراش دهیم قرار می دهیم. به مرورگر وب خود بروید و URL را کپی کنید
URL را در قسمت قرار دهید زمینه URLاز جادوگر از وب. ما می توانیم این گزینه را در حالت "Basic" یا "Advanced Advanced" انتخاب کنیم. حالت پیشرفته گزینه های بسیار بیشتری در مورد نحوه دسترسی به داده ها از وب سایت ارائه می دهد. برای این تمرین فقط به Basicmode احتیاج داریم. روی تأییدکلیک کنید.
اکنون اکسل سعی در اتصال به وب سایت دارد. این ممکن است چند ثانیه طول بکشد. اگر این کار را انجام دهد ، یک پنجره پیشرفت خواهیم دید.
پنجره ناوبرباز خواهد شد ، و ما یک لیست از جداول از وب سایت در سمت چپ مشاهده خواهیم کرد. وقتی یکی را انتخاب کردیم ، یک پیش نمایش جدول در صفحه مشاهده خواهیم کرد درست. بگذارید جدول میانبرهای متداول استفاده شدهرا انتخاب کنیم.
اگر بخواهیم به دنبال میز سفره باشیم ، می توانیم روی برگه WebViewکلیک کنید تا وب سایت واقعی را ببینیم. وقتی آنرا پیدا کردیم ، می توانیم روی آن کلیک کرده و آن را forimport انتخاب کنیم.
اکنون ، روی دکمه باردر انتهای این پنجره کلیک می کنیم. گزینه های دیگری نیز وجود دارد که می توانیم انتخاب کنیم ، پیچیده تر و فراتر از محدوده انجام اولین ضایعات ما. فقط مراقب باشید که آنها در آنجا هستند. قابلیت scraping وب اکسل بسیار قدرتمند است.
جدول وب بعد از چند ثانیه در اکسل بارگیری می شود. داده ها را در سمت چپ مشاهده می کنید ، جایی که شماره 1در تصویر زیر است. شماره 2پرس و جورا برای دریافت داده ها از وب سایت نشان می دهد. وقتی در یک کارنامه چندین نمایش داده شد ، اینجاست که ما موردی را که باید استفاده کنیم انتخاب می کنیم.
توجه کنید که داده ها به عنوان یک Exceltable در صفحه گسترده قرار می گیرند. قبلاً برای ما تنظیم شده است که بتوانیم داده ها را فیلتر یا مرتب سازی کنیم.
ما می توانیم این فرآیند را برای تمام صفحات وب دیگر که میانبرهای Office را که برای Outlook ، Word ، Access ، PowerPoint می خواهیم ، تکرار کنیم. و هر برنامه Office دیگری.
نگه داشتن جریان داده های خراشیده شده در Excel
به عنوان یک جایزه برای شما ، ما می خواهیم یاد بگیریم که چگونه داده های خراشیده شده را در اکسل تازه نگه داریم. این یک روش عالی برای نشان دادن چقدر قدرتمند Excel برای ضبط داده ها است. حتی با وجود این ، ما فقط scrapting ترین عمل را انجام می دهیم که اکسل می تواند انجام دهد.
برای این مثال ، اجازه دهید از یک صفحه وب اطلاعات سهام مانند https://www.cnbc.com/stocks/ استفاده کنیم.
آنچه را که قبلاً انجام دادیم بروید و کپی و چسباندن کنید URL جدید از نوار آدرس.
شما به پنجره Navigator می روید و جداول موجود را مشاهده خواهید کرد. بیایید شاخص های سهام اصلی ایالات متحده را انتخاب کنیم.
پس از پاک کردن داده ها ، صفحه زیر را مشاهده خواهیم کرد.
در سمت راست ، جستجوی شاخص های سهام اصلی ایالات متحده را می بینیم. انتخاب کنید که برجسته شود. مطمئن شوید که در برگه ابزارهای جدولو در قسمت <طراحیقرار داریم. سپس بر روی فلش پایین در زیر تازه کردنکلیک کنید. سپس روی ویژگی های اتصالکلیک کنید.
در پنجره QueryProperties، در زیر برگه استفاده، می توانیم نحوه طراوت این اطلاعات را کنترل کنید. ما می توانیم یک بازه زمانی خاص را برای تازه کردن تنظیم کنیم ، یا وقتی دفعه دیگر کارنامه را باز می کنیم ، تازه کنیم یا در پس زمینه و یا هر ترکیبی از این موارد تازه کنیم. پس از انتخاب آنچه مورد نظر بودیم ، روی تأییدکلیک کنید تا دیوارپوش را ببندید و ادامه دهید.
همین! اکنون می توانید قیمت سهام ، نمرات ورزشی یا هر داده دیگری را که از صفحه گسترده اکسل تغییر می کند ، ردیابی کنید. اگر با معادلات و توابع اکسل خوب هستید ، می توانید تقریباً هر کاری را که می خواهید با داده انجام دهید.
شاید سعی کنید روند سهام را مشخص کنید ، یک استخر ورزشی فانتزی را در محل کار خود اجرا کنید ، یا شاید فقط وضعیت هوا را پیگیری کنید. چه کسی می داند؟ تخیل شما و داده های موجود در اینترنت تنها محدودیت هاست.