Think Like A Data Analyst – 10 sai lầm đọc hiểu dữ liệu mà ai cũng cần biết

Việc phân tích và đọc hiểu dữ liệu chưa bao giờ là dễ dàng, đặc biệt là với những không chuyên. Mình đã từng đọc những báo cáo mà mình từng biết họ fake dữ liệu để che giấu đi những sự thật đằng sau những con số. Cá nhân mình thì luôn tôn thờ sự thật và để sự thật bày tỏ dù có tệ đến mức nào đi chăng nữa. Trong bài viết này, mình sẽ chia sẻ cùng mọi người về những cạm bẫy phổ biến và các bạn nên tránh trong quá trình đọc số. Bài viết này mình có tham khảo dựa trên nội dung cuốn sách Lean Analytics. Đây là chuỗi bài viết chuyên môn mình làm dựa trên những cuốn sách hay mình đọc trong hành trình làm Data Analyst.

Sai lầm số 1: Luôn nghĩ dữ liệu sạch.

Trong ngành có câu nói rất phổ biến —> “Garbage in Garbage out”. Khi bạn đọc dữ liệu thì kiểm tra tính logic của nó so với thực tế . Liên kết các chỉ số để đảm bảo tính hài hòa. So sánh các nhóm đối tượng giống nhau để xem có sự mâu thuẫn nào không. Mình phải luôn giữ tinh thần tư duy phản biện khi đọc số và luôn xem xét tính đúng đắn của dữ liệu.

Một kinh nghiệm cá nhân của mình để kiểm tra tính đúng đắn đó là mình sẽ quy về các chỉ số ratio để kiểm tra. Ví dụ như mình thấy doanh số tăng —> mình sẽ kiểm tra Conversion Rate có gì bất thường không? Thông thường những tỉ lệ Ratio này sẽ có độ biến động thấp. Nếu mình thấy Conversion Rate mà không đổi thì khả năng là dữ liệu có vấn đề, còn nếu Conversion Rate mà tăng thì mình phải xem điều gì dẫn tới Conversion Rate tăng. Đó có phải là chiến lược gần đây mình tập trung hay không?

Sai lầm số 2: Chọn mẫu dữ liệu hoặc nguồn dữ liệu sai

Đây là sai lầm mình thấy cực kì phổ biến. Tác động của nó như tác động của sai lầm số 1. Dữ liệu đầu vào mà sai thì dù bạn có làm gì thì những thông tin bạn đưa ra cũng không có ý nghĩa. Khi mình làm việc mình luôn quan tâm tới dữ liệu đầu vào là gì? Có điều gì bất ổn trong cách thu thập dữ liệu hay không? Nếu số lượng điểm dữ liệu ít, dưới 500 điểm dữ liệu thì mình sẽ quan tâm tới cách thức thu thập dữ liệu như thế nào, việc thu thập dữ liệu có đảm bảo tính khách quan hay không?…

Mình lấy ví dụ giả sử 1 bạn đang có chiến lược giảm phí ship cho khách hàng với mong muốn khuyến khích khách hàng mua nhiều hơn.

Ví dụ: Giỏ hàng của bạn 149k thì giảm 15k phí ship, 299k thì giảm 30k phí ship.

Tactic này sẽ tác động tới những tệp nào?

  • Tệp mua hàng dưới 149K
  • Tệp mua hàng từ 149K —> 299K
  • Tệp mua hàng trên 299K

Với tệp mua hàng dưới 149k thì họ sẽ cố để đẩy lên 149k để có mã giảm phí ship. Tệp mua từ 149k — 299K sẽ có mua trên 299K để đc giảm thêm phí ship.

Tệp mua trên 299K —> không có tác động gì, coi như đc tặng coupon free.

Nếu dữ liệu phân tích đầu vào là tất cả các order có hợp lý không? Ví dụ như chương trình này có tác động tới 80% order trên sàn thì là tốt hay không tốt?

Điều này phụ thuộc vào giá trị trung bình của 1 đơn hàng trước khi chạy. Nếu giá trị trung bình của 1 đơn hàng là dưới 150k thì chương trình này hiệu quả. Còn nếu giá trị trung bình của 1 đơn hàng là 250k trở lên thì đây không khác gì 1 chương trình chạy coupon diện rộng. Mình có thể phải xem xét lại các ngưỡng giảm phí ship sao cho phù hợp Nếu giá trị trung bình của 1 đơn hàng là 250K thì có thể phải nâng lên mức 200-350 hay 250-400 chẳng hạn.

Sai lầm số 3: Không bao gồm các giá trị ngoại lai – outlier

Giá trị ngoại lai hay ngoại biên(Outliers)  những điểm data có sự khác biệt hoàn toàn so với phần còn lại của tập dữ liệu. Ví dụ trung bình mỗi người mua 4 đơn hàng mỗi tháng nhưng có những người mua tới 40 thậm chí 400 đơn hàng mỗi tháng. Những điểm ngoại lai thường cho ta rất nhiều insight thú vị. Họ có thể là fan cuồng hoặc cũng có thể họ đang tìm cách gom hàng vì lí do nào đó. Việc phớt lờ họ sẽ là một sai lầm lớn.

Sai lầm số 4: Bao gồm các giá trị ngoại lệ.

Với những dataset có ít điểm dữ liệu thì sự ảnh hưởng của ngoại lai là rất lớn. Ví dụ như hình dưới đây:

Các bạn có thể thấy giá trị trung bình cao hơn 2 lần so với giá trị Median. Việc tìm hiểu các giá trị ngoại lai là vô cùng quan trọng. Khi bạn giữ lại thì bạn cũng phải biết tại sao bạn giữ, khi bạn bỏ đi thì mình cũng phải biết tại sao mình bỏ. Mình phải hiểu rõ ý nghĩa thực sự đằng sau các giá trị ngoại lai.

Sai lầm số 5: Bỏ qua tính thời vụ.

Ôi doanh số tháng này giảm mạnh buồn ghê. Hay ôi tự dưng tháng này doanh số ngon thế. Nếu doanh số tăng các bạn cũng phải hiểu tại sao tăng, mình đã làm gì để giúp số tăng thì mình mới giữ được đà tăng trưởng đó. Nếu số giảm mình cũng phải biết tại sao nó giảm, trong khả năng kiểm soát của mình hay là không? Mình phải biết nguyên nhân gốc rễ mới có thể đưa ra hành động phù hợp được. Trong kinh doanh sẽ luôn có yếu tố chu kì, thời vụ. Ví dụ quý 4 luôn là thời điểm vàng của ecommerce. Quý 1 thì số luôn luôn thủng. Mùa thu là mùa tựu trường, ngành hàng văn phòng phẩm phải chạy từ tháng 7- tháng 8. Hay ở miền Bắc fashion chịu tác động của thời tiết rất nhiều, nếu không kiểm soát tốt thì hàng của bạn có thể bị tồn tới năm sau. Hết mùa đông rồi thì còn ai đi mua áo khoác làm chi.

Sai lầm số 6: Bỏ qua số tuyệt đối khi báo cáo mức tăng trưởng.

Đây là vấn đề mà mình thấy thường xuyên trên mạng xã hội luôn, đặc biệt các startup. Những tuyên bố như năm vừa rồi x10 doanh thu, x20 doanh thu sẽ không có ý nghĩa gì nếu chúng ta không biết số tuyệt đối. Ví dụ từ 100tr tới 1 tỷ là x10 doanh thu nhưng từ 10 tỷ lên 11 tỉ chỉ tăng trưởng có 10% thôi. Việc các bạn hiểu các đọc số này cũng dễ đối mặt với những thông tin giật gân khoe khoang trên mạng xã hội 😀

Sai lầm số 7: Nhồi nhét quá nhiều thông tin vào Dashboard

Thực tế thì càng nhiều thông tin chúng ta sẽ càng khó ra quyết định. Việc nhồi nhét đủ các thể loại metric vào dashboard chỉ làm cho chúng ta thêm rối và mất đi sự tập trung. Hãy chọn ra những metric quan trọng nhất. Mỗi thông tin trình bày trên dashboard đều phải có ý nghĩa rõ ràng, nếu không thì cứ mạnh dạn bỏ đi nhé!

Sai lầm số 8: Không set ngưỡng cảnh báo hoặc set ngưỡng không phù hợp

Action là phần quan trọng nhất trong quá trình phân tích dữ liệu. Nếu chúng ta dành thời gian phân tích nhưng không action thì business không có gì thay đổi cả. Càng làm thì mình càng thấy làm Data Analyst phải rất Agile, song hành cùng business, ra action liên tục. Việc set ngưỡng cảnh báo phù hợp sẽ giúp tiết kiệm thời gian tìm ra insight và action nhanh hơn. Nếu chúng ta không set ngưỡng cảnh báo thì chúng ta có thể bị miss và có thể không action kịp thời. Hay trường hợp các phạn set ngưỡng nhưng không phù hợp thì cũng phản tác dụng. Nó giống như đặt mục tiêu, nếu đặt mục tiêu quá dễ thì chúng ta không có motivation để cải thiện. Nếu đặt mục tiêu quá cao thì chúng ta khó nhìn được những tiến bộ nhỏ, lúc nào cũng thấy không đạt target.

Sai lầm số 9: Tập trung vào những điểm không quan trọng

Thường khi nhìn dashboard chúng ta sẽ có xu hướng bới lông tìm vết. Khi phát hiện 1 vấn đề nào đó chúng ta sẽ xoáy sâu vào nó. Đó chính là lập trình tự nhiên của não bộ. Tuy nhiên chúng ta phải biết việc xoáy sâu đó có vai trò gì. Hãy tập trung vào những điều quan trọng. Tập lùi lại và quan sát bức tranh tổng quan.

Sai lầm số 10: Quá đề cao chủ nghĩa kinh nghiệm

Môi trường kinh doanh đang thay đổi rất là nhanh. Những gì ta làm hôm nay chưa chắc đã phù hợp với ngày mai. Kinh nghiệm cũng là những chất liệu tốt nhưng đừng để nó làm cản trở sự tự do, sáng tạo trong quá trình giải quyết vấn đề. Đã là kinh nghiệm thì nó đã thuộc về quá khứ. Hãy học những bài học từ kinh nghiệm quá khứ và ứng biến cho hiện tại chứ đừng mang cách làm của quá khứ áp vào hiện tại.

Trên đây là 10 sai lầm mà chúng ta nên tránh trong quá trình sử dụng dữ liệu để ra quyết định trong kinh doanh. Đây là những sai lầm mà mình thấy rất rất nhiều người gặp phải. Chúng ta cùng quan sát, học hỏi để làm đúng hơn nhé!

Nếu các bạn thấy bài viết này hữu ích thì hãy chia sẻ với bạn bè xung quanh, những người đang tìm hiểu về ngành Data Science.

Xin cảm ơn sự theo dõi của các bạn. Hẹn các bạn trong các bài viết kế tiếp.

Share để lưu bài viết

Leave a Reply

Your email address will not be published. Required fields are marked *