Scrapy – Giới thiệu


Được đăng vào ngày 01/11/2019 | 0 bình luận

Scrapy là một web framework rất mạnh mẽ trong việc trích xuất dữ liệu. Scrapy có kiến trúc sự kiện, cho phép chúng ta thực hiện các công việc như dọn dẹp, tạo, lưu trữ, làm giàu dữ diệu…v.v

Scrapy đã hiện diện từ năm 2008, một số tính năng của scrapy như sau:

  • Có thể làm việc với các đoạn code HTML “xấu”
  • Cộng đồng lớn
  • Mã nguồn ổn định
  • Tốc độ xử lí nhanh theo dạng bất đồng bộ
  • Có thể lưu dữ liệu theo nhiều định dag như JSON, CSV, XML.
  • Có thể trích xuất dữ liệu bằng cách sử dụng các biểu thức XPath hay CSS

Cài đặt

Để có thể cài đặt và sử dụng Scrapy thì bạn cần có Python, Python 2 hay 3 đều được. Để cài đặt Scrapy thì chúng ta dùng pip

pip install Scrapy

Kiểm tra phiên bản

Chạy lệnh scrapy version để xem phiên bản scrapy mà chúng ta đang vừa cài

>> scrapy version
Scrapy 1.8.0

Được đăng vào ngày 01/11/2019

Phân biệt data categorical, ordinal và interval


Được đăng vào ngày 25/09/2019 | 0 bình luận

Categorical

Đây là loại dữ liệu dạng “phân loại”, và không thể sắp xếp được.

Ví dụ: với class Gender có thể có domain là {Male, Female}, hay Color có domain là {Blue, Red, Green…}

Ordinal

Cũng thuộc dạng data “phân loại”, nhưng có thể sắp xếp được.

Chẳng hạn kích cỡ quần áo có thể có miền như {S, M, L, XL, XXL, XXXL}, hay xếp loại học lực {Giỏi, Khá, Trung Bình, Yếu}

Interval

Thuộc dạng “phân loại” và có thể sắp xếp được như kiểu Ordinal, nhưng các giá trị trong interval có chung một giá trị gọi là “khoảng cách”.

Chẳng hạn khi làm khảo sát mà có hỏi đến thu nhập, người ta hay đưa ra các khoảng như

  • 0 -> 20000 Euro
  • 20000 -> 40000 Euro
  • 40000 -> 60000 Euro
  • 60000 -> 80000 Euro

Ở đây “khoảng cách” giữa các giá trị là 20000 euro

Ref: https://stats.idre.ucla.edu/other/mult-pkg/whatstat/what-is-the-difference-between-categorical-ordinal-and-interval-variables/

Được đăng vào ngày 25/09/2019

Ebook Django


Được đăng vào ngày 23/03/2018 | 0 bình luận

Mình tập hợp một số ebook về Django cho các bạn tham khảo thêm. Tất cả đều là tiếng Anh hết, hiện tại số lượng tài liệu tiếng Việt rất hiếm.

Các bạn nhấp vào link để tải sách và source code (nếu có). Nếu link sai hãy gửi mail báo cáo vào support@phocode.com

Chúc các bạn học tốt

Django By ExamplePDF | Source code

Beginning Django E-Commerce: PDF

Django Design Patterns and Best Practices: PDF

Learning Django Web Development: PDF

Lightweight Django: PDF

Web Development With Django Cookbook 2nd Edition: PDF | Source code

Được đăng vào ngày 23/03/2018