Hành động Data Analyst thực hiện nhiều nhất với một cơ sở dữ liệu chính là thực hiện câu lệnh SQL. Trong bài viết “3 lý do bạn nên học SQL đầu tiên khi muốn trở thành Data Analyst”, Vinh đã chia sẻ về tầm quan trọng của SQL đối với công việc của một Data Analyst nói riêng, hay ngành dữ liệu nói chung. Bây giờ, chúng ta sẽ cùng tìm hiểu 9 câu lệnh SQL cơ bản mà Data Analyst nào cũng cần biết nhé!
1. Lệnh SELECT – FROM
Câu lệnh SELECT được sử dụng để truy vấn lấy dữ liệu từ CSDL. Kết quả được lưu trong một bảng gọi là result-set. Một câu lệnh truy vấn có thể lấy thông tin từ các cột chỉ định hoặc tất cả các cột trong bảng, bằng cú pháp như sau:
SELECT column_list
FROM table_name
Có rất nhiều lệnh con trong câu lệnh SELECT. Nhưng cấu trúc đơn giản nhất là:
SELECT FROM WHERE <điều kiện>;
2. Lệnh WHERE
WHERE dùng để lọc data từ bảng vào để bắt đầu thực hiện truy vấn. Trong 1 lệnh WHERE có thể chứa nhiều điều kiện, có thể phân cách bằng AND/OR
Ví dụ: Đề bài yêu cầu lấy id và tên học sinh có điểm toán lớn hơn 8 và khoa học lớn hơn 8
3. Hàm SUM
Chức năng: Hàm SUM trả về giá trị tổng của một cột, một tập hợp dữ liệu hoặc một biểu thức.
Ví dụ: lấy tổng giá trị đơn hàng
4. Hàm COUNT
Chức năng: Cho biết số phần tử trong cột đó. Nói cách khác là đếm số dòng hoặc số lần phần tử đó xuất hiện trong cột
Ví dụ: đếm số học viên trong lớp
5. Hàm AVG
Chức năng: Hàm AVG trả về giá trị trung bình của một biểu thức hay giá trị trung bình theo cột được chỉ định
Ví dụ: tính điểm trung bình của học sinh
6. Mệnh đề GROUP BY
Chức năng: hiển thị dữ liệu trong nhóm. Nếu câu lệnh có các phép tính toán, thường gọi là Aggregate Function như SUM(), AVG(), COUNT() thì ta phải GROUP BY tất cả các trường non-aggregate function
Ví dụ: tính giá trị NMV trung bình của từng khách hàng
7. Mệnh đề ORDER BY
Chức năng: dùng để sắp xếp dữ liệu theo chiều tăng (ASC) hoặc giảm (DESC). Nếu không ghi ASC hoặc DESC thì mặc định luôn là ASC
Ví dụ: tính giá trị NMV trung bình của từng khách hàng, sắp xếp theo chiều giảm dần
8. Mệnh đề HAVING
HAVING thường được sử dụng cùng GROUP BY, luôn đứng sau GROUP BY trong syntax. HAVING dùng để lọc dữ liệu ta muốn xem từ các aggregate function. HAVING chỉ có các động lên kết quả, output của câu query, chứ không tác động lên bảng.
Ví dụ: tính giá trị NMV trung bình của từng khách hàng, sắp xếp theo chiều giảm dần, lấy những ai có giá trị trung bình nmv từ 250 trở lên
9. Toán tử so sánh
- IN(): thoả mãn với giá trị trong danh sách
- NOT: không đáp ứng điều kiện
- LIKE: kết hợp mẫu(pattern) với % để tìm kiếm giá trị gần giống
- IS NULL: lấy giá trị null
- IS NOT NULL: lấy giá trị không null, không lấy những dòng có giá trị là null
- BETWEEN … AND…: nằm trong khoảng (bao gồm luôn cả giá trị đầu vào cuối)
- = : bằng
- <> : không bằng
- != : không bằng
- > : lớn hơn
- < : bé hơn
- >= : lớn hơn hoặc bằng
- <= : bé hơn hoặc bằng
- !> : không lớn hơn
- !< : không bé hơn
Xem Infographic 9 Lệnh SQL cơ bản Data Analyst cần biết
– Xem ngay Lộ trình học Data Analyst chuyển ngành thành công trong vòng 6 tháng
– Xem ngay Lộ trình học Marketing Automation & Analytics Coaching 1 on 1 để upgrade kỹ năng phân tích cho Marketer
– Tham gia Vietnam Data Analyst Forum – #1 Informative Group để học hỏi và chia sẻ kiến thức về Data Analytics
– Cập nhật lịch khai giảng, chương trình ưu đãi và nhận tư vấn chuyển ngành miễn phí tại Data Coaching 1 on 1 – UniGap
One Comment