Scrapy là một web framework rất mạnh mẽ trong việc trích xuất dữ liệu. Scrapy có kiến trúc sự kiện, cho phép chúng ta thực hiện các công việc như dọn dẹp, tạo, lưu trữ, làm giàu dữ diệu…v.v
Scrapy đã hiện diện từ năm 2008, một số tính năng của scrapy như sau:
- Có thể làm việc với các đoạn code HTML “xấu”
- Cộng đồng lớn
- Mã nguồn ổn định
- Tốc độ xử lí nhanh theo dạng bất đồng bộ
- Có thể lưu dữ liệu theo nhiều định dag như JSON, CSV, XML.
- Có thể trích xuất dữ liệu bằng cách sử dụng các biểu thức XPath hay CSS
Cài đặt
Để có thể cài đặt và sử dụng Scrapy thì bạn cần có Python 3 trong máy. Để cài đặt Scrapy thì chúng ta dùng trình pip
:
pip install scrapy
Lưu ý là bạn có thể phải cài thêm Visual C++ Build Tools thì pip mới có thể cài Scrapy được.
Kiểm tra phiên bản
Chạy lệnh scrapy version để xem phiên bản scrapy mà chúng ta đang vừa cài:
$ scrapy version Scrapy 1.8.0
Serie này sử dụng phiên bản 1.8.0