Scrapy – Giới thiệu


Được đăng vào ngày 01/11/2019 | 0 bình luận

Scrapy là một web framework rất mạnh mẽ trong việc trích xuất dữ liệu. Scrapy có kiến trúc sự kiện, cho phép chúng ta thực hiện các công việc như dọn dẹp, tạo, lưu trữ, làm giàu dữ diệu…v.v

Scrapy đã hiện diện từ năm 2008, một số tính năng của scrapy như sau:

  • Có thể làm việc với các đoạn code HTML “xấu”
  • Cộng đồng lớn
  • Mã nguồn ổn định
  • Tốc độ xử lí nhanh theo dạng bất đồng bộ
  • Có thể lưu dữ liệu theo nhiều định dag như JSON, CSV, XML.
  • Có thể trích xuất dữ liệu bằng cách sử dụng các biểu thức XPath hay CSS

Cài đặt

Để có thể cài đặt và sử dụng Scrapy thì bạn cần có Python, Python 2 hay 3 đều được. Để cài đặt Scrapy thì chúng ta dùng pip

pip install Scrapy

Kiểm tra phiên bản

Chạy lệnh scrapy version để xem phiên bản scrapy mà chúng ta đang vừa cài

>> scrapy version
Scrapy 1.8.0

Được đăng vào ngày 01/11/2019