Thử trả lời các câu hỏi Data Analyst của Google – Part 1

Câu hỏi Data Analyst của Google

Gần đây, Google đã phát hành một công cụ có tên là “Interview Warmup” nhằm giúp các ứng viên đang ứng tuyển vào Google chuẩn bị tốt hơn cho các vòng phỏng vấn. Trên công cụ này có 3 nhóm câu hỏi chính: Background, Situation và Technical. Cá nhân Vinh sau khi review các câu hỏi này thì thấy rất thú vị và thách thức. Chính vì vậy, Vinh sẽ viết 1 chuỗi bài để trả lời những question này nha. Đây là bài viết số 1.

Question 1: Analysts often need to combine data sets from different sources using joins. Can you describe the common types of joins you may need to complete?

Tạm dịch: Các nhà phân tích thường cần kết hợp các tập dữ liệu từ các nguồn khác nhau bằng cách sử dụng các phép JOIN. Bạn có thể mô tả các loại JOIN phổ biến mà bạn có thể cần phải hoàn thành không?

Chia sẻ: Thực tế thì JOIN là một công cụ mà DA phải làm rất thường xuyên. Số lượng các loại JOIN khá nhiều, nếu kể tên thì cũng cả chục loại. JOIN là kiến thức nền tảng rất quan trọng nhưng Vinh thấy nhiều bạn chưa hiểu rõ bản chất của JOIN. Bản chất của join là mapping dữ liệu theo chiều ngang dựa trên điều kiện. Thông thường chúng ta có 1 số loại JOIN chính sau: 

– INNER JOIN: Trả ra những record mapping thành công giữa 2 bảng dựa trên 1 điều kiện trong phần ON/USING.

– LEFT JOIN: Giữ lại toàn bộ bên trái, maping sang bảng bên phải. Phần này không có giá trị mapping để null. LEFT JOIN bao gồm 2 phần dữ liệu: INNER JOIN và phần chỉ thuộc bên TRÁI.

– RIGHT JOIN: Giữ lại toàn bộ bên phải, mapping sang bảng bên trái. Phần nào không có giá trị mapping để null. RIGHT JOIN bao gồm 2 phần dữ liệu: INNER JOIN và phần chỉ thuộc bên PHẢI.

– FULL JOIN: Giữ lại cả bảng bên trái, cả bảng bên phải trong quá trình mapping. Giá trị nào không mapping được thì để null. FULL JOIN bao gồm Phần chỉ thuộc bên trái + INNER JOIN + Phần chỉ thuộc bên phải.

– CROSS JOIN: Đây là kiểu join không có điều kiện. Tất cả những dòng của bảng bên trái mapping với các dòng ở bảng bên phải. Nếu bảng bên trái có m dòng, bảng bên phải có n dòng thì kết quả trả ra là m*n dòng.

– SELF JOIN: Self Join bản chất là 1 bảng A join với chính nó. Thông thường các kiểu join phía trên bảng bên trái và bảng bên phải là 2 bảng khác nhau nhưng self join là cùng 1 bảng. Về nguyên lý hoạt động thì hoàn toàn giống với những kiểu join phía trước. Lưu ý, các trường hợp dùng self join thường điều kiện mapping dữ liệu là điều kiện bất đối xứng. Ví dụ như on a.year = a2.year – 5.

Question 2: Companies that work with data and analytics often store and organize large amounts of data in a database. Please describe the functions and benefits of a database – why are they useful?

Tạm dịch: Các công ty làm việc với dữ liệu và phân tích thường lưu trữ và sắp xếp một lượng lớn dữ liệu trong cơ sở dữ liệu. Vui lòng mô tả các chức năng và lợi ích của cơ sở dữ liệu – tại sao chúng lại hữu ích?

Chia sẻ: Câu này khá là dễ nhưng nhiều khi chính những thứ căn bản, hiển nhiên lại khó đưa ra câu trả lời sâu sắc. Ở đây có 3 ý: chức năng, lợi ích và tại sao nó hữu ích với doanh nghiệp.

  1. Chức năng của Database:

    – Lưu trữ dữ liệu

    – Trích xuất dữ liệu

    – Transform dữ liệu

    – Backup dữ liệu

    – Cập nhật dữ liệu

2. Lợi ích của Database:

    – Lưu trữ dữ liệu khách hàng, đơn hàng, tồn kho,…

    – Hỗ trợ phân tích dữ liệu, cải tiến hoạt động kinh doanh

    – Trích xuất dữ liệu, tương thích với các ứng dụng trên mobile, website, …

    – Đảm bảo tính chính xác, giảm thiểu thời gian vận hành.

3. Tại sao nó hữu ích:

    – Giúp doanh nghiệp chuyển đổi số, tự động hóa kinh doanh và tối ưu vận hành.

    – Trích xuất thông tin hữu ích nhằm đưa ra những quyết định chính xác hơn.

    – Tìm kiếm thông tin một cách nhanh chóng, dễ dàng.

    – Giúp giao tiếp nội bộ trở nên chính xác, dễ kiểm chứng và hiệu quả hơn.

    – Kiểm soát nội bộ, phát triển con người hiệu quả hơn thông qua nhưng dữ liệu về nhân sự.

Trên đây là 1 số nội dung về chức năng, vai trò và ý nghĩa của Database. Khi doanh nghiệp phát triển lớn lên thì việc chuyển đổi số là bắt buộc. Bất cứ doanh nghiệp nào muốn chạy ở scale lớn đều cần xây dựng hệ thống database. Nếu không có database thì dữ liệu trong công ty như bãi rác không được phân loại và rất khó để tìm kiếm giá trị từ đó.

ĐỌC PHẦN 2

Share để lưu bài viết

Leave a Reply

Your email address will not be published. Required fields are marked *