Phư??ng pháp nghiên cứu
Để tính toán CPI từ nguồn dữ liệu lớn, nhóm tác giả sử dụng phư??ng pháp nghiên cứu định lượng: Phư??ng pháp thu thập dữ liệu, Phư??ng pháp tổng hợp CPI dựa trên dữ liệu lớn.
Dữ liệu được thu thập 3 kỳ trong tháng: Kỳ 1 thu thập vào ngày 01 tháng báo cáo; Kỳ 2 thu thập vào ngày 10 tháng báo cáo; Kỳ 3 thu thập vào ngày 20 tháng báo cáo.
Thời gian thu thập dữ liệu: Bắt đầu từ năm 2017.
Quy trình thu thập và xử lý
- Bước 1: Vào các ngày 1, 10 và 20 hàng tháng tiến hành thu thập thông tin tại các trang. Các thông tin này đều là dữ liệu phi cấu trúc.
- Bước 2: Xử lý dữ liệu từ phi cấu trúc thành có cấu trúc
Bước này chủ yếu là quá trình “dạy” máy hiểu được ngôn ngữ, bao gồm các nội dung:
(1) Tuyển chọn kỹ thuật viên để xử lý thông tin đã được thu thập vào máy theo cấu trúc quy định; (2) Thiết kế và viết chương trình nhập tin; (3) Tập huấn kỹ thuật viên; (4) Tiến hành cho kỹ thuật viên xử lý thông tin (10% mẫu); (5) Viết chương trình xử lý ngôn ngữ để máy có thể hiểu và xử lý dữ liệu; (6) Kiểm tra dữ liệu sau khi máy đã xử lý; (7) Nếu dữ liệu đạt chất lượng từ 80% trở lên, cho máy xử lý toàn bộ dữ liệu; (8) Nếu chất lượng dữ liệu chưa đạt tới 80%, tiến hành mở thêm 5% mẫu xử lý và quay lại bước tiến hành cho kỹ thuật viên xử lý thông tin.
- Bước 3: Xử lý dữ liệu. Kiểm tra giá các mặt hàng biến động (cao hoặc thấp nhiều) so với tháng trước. Gán giá cho các mặt hàng có giá ở kỳ trước nhưng không có giá ở kỳ này (mặt hàng nào gán giá 3 lần thì sẽ bị loại bỏ, không đưa vào tính toán CPI).
- Bước 4: Tính CPI
(1) Tính chỉ số giá cá thể của các mặt hàng hóa và dịch vụ đại diện tháng báo cáo so với tháng trước theo công thức sau:
Để tính toán CPI từ nguồn dữ liệu lớn, nhóm tác giả sử dụng phư??ng pháp nghiên cứu định lượng: Phư??ng pháp thu thập dữ liệu, Phư??ng pháp tổng hợp CPI dựa trên dữ liệu lớn.
Dữ liệu được thu thập 3 kỳ trong tháng: Kỳ 1 thu thập vào ngày 01 tháng báo cáo; Kỳ 2 thu thập vào ngày 10 tháng báo cáo; Kỳ 3 thu thập vào ngày 20 tháng báo cáo.
Thời gian thu thập dữ liệu: Bắt đầu từ năm 2017.
Quy trình thu thập và xử lý
- Bước 1: Vào các ngày 1, 10 và 20 hàng tháng tiến hành thu thập thông tin tại các trang. Các thông tin này đều là dữ liệu phi cấu trúc.
- Bước 2: Xử lý dữ liệu từ phi cấu trúc thành có cấu trúc
Bước này chủ yếu là quá trình “dạy” máy hiểu được ngôn ngữ, bao gồm các nội dung:
(1) Tuyển chọn kỹ thuật viên để xử lý thông tin đã được thu thập vào máy theo cấu trúc quy định; (2) Thiết kế và viết chương trình nhập tin; (3) Tập huấn kỹ thuật viên; (4) Tiến hành cho kỹ thuật viên xử lý thông tin (10% mẫu); (5) Viết chương trình xử lý ngôn ngữ để máy có thể hiểu và xử lý dữ liệu; (6) Kiểm tra dữ liệu sau khi máy đã xử lý; (7) Nếu dữ liệu đạt chất lượng từ 80% trở lên, cho máy xử lý toàn bộ dữ liệu; (8) Nếu chất lượng dữ liệu chưa đạt tới 80%, tiến hành mở thêm 5% mẫu xử lý và quay lại bước tiến hành cho kỹ thuật viên xử lý thông tin.
- Bước 3: Xử lý dữ liệu. Kiểm tra giá các mặt hàng biến động (cao hoặc thấp nhiều) so với tháng trước. Gán giá cho các mặt hàng có giá ở kỳ trước nhưng không có giá ở kỳ này (mặt hàng nào gán giá 3 lần thì sẽ bị loại bỏ, không đưa vào tính toán CPI).
- Bước 4: Tính CPI
(1) Tính chỉ số giá cá thể của các mặt hàng hóa và dịch vụ đại diện tháng báo cáo so với tháng trước theo công thức sau:
(2)Tính chỉ số giá của nhóm hàng cấp 4 tháng báo cáo so với tháng trước.
Chỉ số giá tiêu dùng của nhóm cấp 4 được tính theo phư??ng pháp bình quân nhân giản đơn, công thức sau đây:
Trong đó:
(3) Tính chỉ số giá của các nhóm cấp 4 tháng báo cáo so với kỳ gốc theo công thức:
(3) Tính chỉ số giá của các nhóm cấp 4 tháng báo cáo so với kỳ gốc theo công thức:
(4) Tính chỉ số giá từ nhóm cấp 3 trở lên đến cấp 1 và chỉ số chung tháng báo cáo so với kỳ gốc theo công thức sau:
(5) Tính chỉ số giá của thành phố: Chỉ số giá của thành phố được tính từ chỉ số của các nhóm hàng tương ứng giữa hai khối: thu thập online và thu thập theo phư??ng pháp truyền thống. Quyền số ngang được sử dụng để tính chỉ số giá cả thành phố theo các nhóm hàng từ cấp 4 đến cấp 1 và chỉ số chung.
Nhóm nghiên cứu tiến hành thu thập dữ liệu lớn và tính toán CPI tại thành phố Hồ Chí Minh theo 4 phư??ng pháp như sau:
- Phư??ng pháp 1: Sử dụng công thức bình quân cộng để tính giá bình quân từ dữ liệu lớn và dùng giá này để tính CPI.
- Phư??ng pháp 2: Sử dụng công thức bình quân nhân để tính giá bình quântừ dữ liệu lớn và dùng giá này để tính CPI.
- Phư??ng pháp 3: Kết hợp giữa chỉ số giá tính theo phư??ng pháp truyền thống và phư??ng pháp thu thập từ dữ liệu lớn. Phư??ng pháp này tính toán quy???n số dựa vào phía cầu hàng hóa (người tiêu dùng), do thu nhập và tỷ trọng chi tiêu hàng hóa và dịch vụ có khác biệt giữa khu vực thành thị và khu vực nông thôn nên phư??ng pháp này tính toán riêng chỉ số giá tiêu dùng cho khu vực thành thị và chỉ số giá tiêu dùng cho khu vực nông thôn. Sau đó kết hợp hai chỉ số này thành chỉ số giá chung cho toàn thành phố với quyền số là tỷ trọng chi tiêu của từng khu vực. Dựa vào Kết quả khảo sát của Hội Doanh nghiệp Hàng Việt Nam chất lượng cao, người tiêu dùng chọn mua hàng trực tuyến phần lớn tập trung ở khu vực thành thị, phư??ng pháp này sẽ xem kết quả tính toán CPI được thu thập từ dữ liệu lớn ở phư??ng pháp 1 là đại diện cho chi tiêu của người dân ở khu vực thành thị, kết hợp với kết quả tính toán CPI được thu thập từ phư??ng pháp truyền thống ở khu vực nông thôn (đại diện cho chi tiêu của người dân ở khu vực nông thôn). Quyền số kết hợp là tỷ trọng chi tiêu của khu vực thành thị và tỷ trọng chi tiêu của khu vực nông thôn (Theo Tổng cục Thống kê quyền số này là cố định, 5 năm mới thay đổi 1 lần).
- Phư??ng pháp 4: Kết hợp giữa chỉ số giá tính theo phư??ng pháp truyền thống và phư??ng pháp thu thập từ dữ liệu lớn. Phư??ng pháp này tính toán quy???n số dựa vào phía cung hàng hóa (doanh nghiệp và hộ cá thể bán lẻ hàng hóa và dịch vụ), do đó sẽ tính toán riêng chỉ số giá tiêu dùng do khối doanh nghiệp cung cấp và chỉ số giá tiêu dùng do khối cá thể cung cấp. Dựa vào danh sách mạng lưới điều tra CPI tại TP.HCM giai đoạn 2015-2019, mà phần lớn mạng lưới được thu thập từ các chợ truyền thống, phư??ng pháp này sẽ xem kết quả tính toán CPI được thu thập từ phư??ng pháp truyền thống đại diện cho khối cá thể và kết quả tính toán CPI được thu thập từ dữ liệu lớn ở phư??ng pháp 1 (toàn bộ hàng hóa và dịch vụ đều được phân phối bởi các doanh nghiệp bán lẻ) đại diện cho khối doanh nghiệp. Quyền số kết hợp là tỷ trọng tổng mức bán lẻ của khối doanh nghiệp và khối cá thể chia chi tiết theo từng nhóm hàng (quyền số này thay đổi hàng năm, dựa vào kết quả điều tra doanh nghiệp hoặc có thể thay đổi theo từng tháng, dựa vào báo cáo tháng của doanh nghiệp mẫu và hộ cá thể mẫu).
Kết quả nghiên cứu
Trong quá trình tìm kiếm các trang web phù hợp, nhóm nghiên cứu đã quan sát nhiều trang thương mại điện tử lớn của Việt Nam và chọn ra 28 trang web lớn và có uy tín để thu thập giá.
Kết quả tính toán thực nghiệm từ dữ liệu lớn đã thu thập và tổng hợp được cụ thể như sau:
Nhóm nghiên cứu tiến hành thu thập dữ liệu lớn và tính toán CPI tại thành phố Hồ Chí Minh theo 4 phư??ng pháp như sau:
- Phư??ng pháp 1: Sử dụng công thức bình quân cộng để tính giá bình quân từ dữ liệu lớn và dùng giá này để tính CPI.
- Phư??ng pháp 2: Sử dụng công thức bình quân nhân để tính giá bình quântừ dữ liệu lớn và dùng giá này để tính CPI.
- Phư??ng pháp 3: Kết hợp giữa chỉ số giá tính theo phư??ng pháp truyền thống và phư??ng pháp thu thập từ dữ liệu lớn. Phư??ng pháp này tính toán quy???n số dựa vào phía cầu hàng hóa (người tiêu dùng), do thu nhập và tỷ trọng chi tiêu hàng hóa và dịch vụ có khác biệt giữa khu vực thành thị và khu vực nông thôn nên phư??ng pháp này tính toán riêng chỉ số giá tiêu dùng cho khu vực thành thị và chỉ số giá tiêu dùng cho khu vực nông thôn. Sau đó kết hợp hai chỉ số này thành chỉ số giá chung cho toàn thành phố với quyền số là tỷ trọng chi tiêu của từng khu vực. Dựa vào Kết quả khảo sát của Hội Doanh nghiệp Hàng Việt Nam chất lượng cao, người tiêu dùng chọn mua hàng trực tuyến phần lớn tập trung ở khu vực thành thị, phư??ng pháp này sẽ xem kết quả tính toán CPI được thu thập từ dữ liệu lớn ở phư??ng pháp 1 là đại diện cho chi tiêu của người dân ở khu vực thành thị, kết hợp với kết quả tính toán CPI được thu thập từ phư??ng pháp truyền thống ở khu vực nông thôn (đại diện cho chi tiêu của người dân ở khu vực nông thôn). Quyền số kết hợp là tỷ trọng chi tiêu của khu vực thành thị và tỷ trọng chi tiêu của khu vực nông thôn (Theo Tổng cục Thống kê quyền số này là cố định, 5 năm mới thay đổi 1 lần).
- Phư??ng pháp 4: Kết hợp giữa chỉ số giá tính theo phư??ng pháp truyền thống và phư??ng pháp thu thập từ dữ liệu lớn. Phư??ng pháp này tính toán quy???n số dựa vào phía cung hàng hóa (doanh nghiệp và hộ cá thể bán lẻ hàng hóa và dịch vụ), do đó sẽ tính toán riêng chỉ số giá tiêu dùng do khối doanh nghiệp cung cấp và chỉ số giá tiêu dùng do khối cá thể cung cấp. Dựa vào danh sách mạng lưới điều tra CPI tại TP.HCM giai đoạn 2015-2019, mà phần lớn mạng lưới được thu thập từ các chợ truyền thống, phư??ng pháp này sẽ xem kết quả tính toán CPI được thu thập từ phư??ng pháp truyền thống đại diện cho khối cá thể và kết quả tính toán CPI được thu thập từ dữ liệu lớn ở phư??ng pháp 1 (toàn bộ hàng hóa và dịch vụ đều được phân phối bởi các doanh nghiệp bán lẻ) đại diện cho khối doanh nghiệp. Quyền số kết hợp là tỷ trọng tổng mức bán lẻ của khối doanh nghiệp và khối cá thể chia chi tiết theo từng nhóm hàng (quyền số này thay đổi hàng năm, dựa vào kết quả điều tra doanh nghiệp hoặc có thể thay đổi theo từng tháng, dựa vào báo cáo tháng của doanh nghiệp mẫu và hộ cá thể mẫu).
Kết quả nghiên cứu
Trong quá trình tìm kiếm các trang web phù hợp, nhóm nghiên cứu đã quan sát nhiều trang thương mại điện tử lớn của Việt Nam và chọn ra 28 trang web lớn và có uy tín để thu thập giá.
Kết quả tính toán thực nghiệm từ dữ liệu lớn đã thu thập và tổng hợp được cụ thể như sau:
Bảng 4: Chỉ số giá tiêu dùng các tháng so tháng trước
Kết quả tính toán CPI từ dữ liệu lớn ở cả 4 phư??ng pháp đều thể hiện đúng xu hướng và không có chênh lệnh nhiều so với CPI truyền thống. Trong giai đo??n 14 tháng tính toán CPI so tháng trước thì có 6 tháng CPI tính theo phư??ng pháp truyền thống cao hơn CPI tính từ dữ liệu lớn và có 8 tháng thấp hơn. Đặc biệt có 3 tháng, mức chênh lệch này chỉ có 0,02% tháng có mức chênh lệch cao nhất là 0,25%.
So với CPI truyền thống, CPI được tính theo phư??ng pháp 4 có mức độ chênh lệch thấp nhất trong 4 phư??ng pháp tính và là phư??ng pháp kế thừa, kết hợp giữa phư??ng pháp 1 và CPI tính theo phư??ng pháp truyền thống. Phân tích số liệu trong giai đoạn từ tháng 10/2017 đến tháng 11/2018 cho thấy, hai phư??ng pháp thu thập dữ liệu (truyền thống và dữ liệu thu thập từ dữ liệu lớn) cho kết quả tính CPI tương đối giống nhau: Từ tháng 10/2017 đến tháng 11/2018, chỉ số giá tiêu dùng của 2 phư??ng pháp này tăng lần lượt là 3,23% và 3,48% (chênh lệch không đáng kể: 0,25% trong giai đo??n 14 tháng). /.
So với CPI truyền thống, CPI được tính theo phư??ng pháp 4 có mức độ chênh lệch thấp nhất trong 4 phư??ng pháp tính và là phư??ng pháp kế thừa, kết hợp giữa phư??ng pháp 1 và CPI tính theo phư??ng pháp truyền thống. Phân tích số liệu trong giai đoạn từ tháng 10/2017 đến tháng 11/2018 cho thấy, hai phư??ng pháp thu thập dữ liệu (truyền thống và dữ liệu thu thập từ dữ liệu lớn) cho kết quả tính CPI tương đối giống nhau: Từ tháng 10/2017 đến tháng 11/2018, chỉ số giá tiêu dùng của 2 phư??ng pháp này tăng lần lượt là 3,23% và 3,48% (chênh lệch không đáng kể: 0,25% trong giai đo??n 14 tháng). /.
Nguyễn Thanh Bình - Cục Thống kê Tp. Hồ Chí Minh
Lê Thị Thanh Loan - Trường Đại học Tôn Đức Thắng Tp. HCM
Trang web giải trí trực tuyến Đông Nam
Lê Thị Thanh Loan - Trường Đại học Tôn Đức Thắng Tp. HCM