Trong SPSS, để phân tích sự ảnh hưởng của 2 yếu tố dữ liệu thì hồi quy Logistic là một kỹ thuật dự đoán chính xác nhất. Vậy làm cách nào để dự đoán bằng hồi quy? Luận văn 1080 sẽ hướng dẫn các bạn chi tiết cách dự đoán kết quả trong phân tích dữ liệu SPSS mới nhất, chuẩn nhất. Mời các bạn tham khảo ngay!

Ý nghĩa của Hồi quy logistic trong phân tích dữ liệu SPSS
1. Lý thuyết về hồi quy logistic
1.1. Định nghĩa
- Hồi quy logistic là một kỹ thuật phân tích được sử dụng trong thống kê để dự đoán xác suất của một sự việc đang diễn ra dựa trên các yếu tố của các biến đầu vào.
- Nó được dùng phổ biến trong phân tích các dữ liệu và khai thác thông tin dữ liệu, đặc biệt là trong các lĩnh vực có liên quan đến dự đoán kết quả và phân loại số liệu.
1.2. Công thức hồi quy logistic

Công thức hồi quy logistic dự đoán xác suất xảy ra đảm bảo kết quả luôn nằm trong khoảng [0,1].
Trong đó:
- P(Yi= 1): Xác suất để biến phụ thuộc Y nhận giá trị 1 (ví dụ: khách hàng mua hàng, bệnh nhân mắc bệnh, học sinh đậu, v.v.)
- β0: Hệ số chặn (intercept), thể hiện mức xác suất cơ bản khi các X = 0
- β1, β2,… βk: Các hệ số hồi quy (regression coefficients), cho biết mức ảnh hưởng của từng biến độc lập X₁, X₂,… lên xác suất Y = 1
- X1i, X2i,… Xki: Các biến độc lập (đặc điểm, yếu tố tác động như tuổi, thu nhập, giới tính, v.v.)
- e: Hằng số Euler ≈ 2.71828, là cơ sở của logarit tự nhiên, giúp mô hình biểu diễn mối quan hệ phi tuyến giữa X và P(Y).

Ví dụ biểu đồ hồi quy
- Hồi quy logistic có thể được dùng cho cả trường hợp có một biến độc lập (hồi quy logistic đơn biến) và trường hợp có nhiều biến độc lập (hồi quy logistic đa biến).
1.3. Phân loại
1.3.1. Hồi quy logistic nhị phân
Hồi quy logistic nhị phân(Binary Logistic Regression) là một trường hợp đặc biệt của hồi quy logistic, trong đó biến phân loại chỉ có hai giá trị, thường được ký hiệu là 0 và 1.
Hồi quy logistic nhị phân được sử dụng trong các bài toán phân loại nhị phân hoặc dự đoán hành vi để phân loại các điểm dữ liệu vào một trong hai nhóm. Ví dụ: có/không, thành công/thất bại, mua/không mua, mắc bệnh/không mắc bệnh…
1.3.2. Hồi quy logistic đa thức
Hồi quy logistic đa thức (Multinomial Logistic Regression) là một dạng mở rộng của hồi quy logistic nhị phân, được sử dụng khi biến phụ thuộc (Y) là biến phân loại (categorical variable) có từ ba nhóm trở lên hoặc nhiều hơn hai giá trị.
Ví dụ, trong bài toán phân loại giữa các loài hoa, biến phân loại có thể bao gồm: “loài hoa 1”, “loài hoa 2” hoặc “loài hoa 3”.
Trong mô hình này, ta chọn một nhóm làm nhóm tham chiếu (reference category), sau đó ước lượng xác suất tương đối của từng nhóm còn lại so với nhóm tham chiếu. Nói cách khác, mô hình so sánh xác suất rơi vào từng nhóm với xác suất của nhóm chuẩn, thông qua log của tỷ lệ xác suất (log odds ratio) — đây chính là cốt lõi của hồi quy logistic đa thức.
Hồi quy logistic đa thức thường được áp dụng trong các bài toán phân loại đa lớp (multiclass classification), nơi biến phụ thuộc có nhiều mức không có thứ tự.
Mô hình cho phép ước lượng ảnh hưởng của từng biến độc lập X lên khả năng rơi vào một nhóm cụ thể so với nhóm tham chiếu.
Ví dụ: dự đoán loại phương tiện di chuyển của một người (ô tô, xe máy, xe buýt), hoặc phân loại cây trồng dựa trên các đặc điểm như chiều cao, đường kính thân cây, diện tích lá…
⇒ Cả hai dạng hồi quy logistic này đều sử dụng hàm logistic để tính xác suất dự đoán và sử dụng các phương pháp tối ưu để điều chỉnh các tham số của mô hình để đạt được độ chính xác tốt nhất.
Ngoài ra, còn có một dạng mở rộng khác là hồi quy logistic thứ bậc (Ordinal Logistic Regression) – dùng khi biến phụ thuộc có nhiều mức có thứ tự (ví dụ: “hài lòng”, “bình thường”, “không hài lòng”).
1.4. Ý nghĩa toán học và ví dụ
Ví dụ:
Nếu mô hình dự đoán xác suất một khách hàng mua hàng (Y=1) dựa trên tuổi (X₁) và thu nhập (X₂):
- Nếu β₁ > 0, tuổi tăng làm tăng xác suất mua hàng.
- Nếu β₂ > 0, thu nhập cao hơn cũng làm tăng xác suất mua hàng.
- Nếu β₂ < 0, thu nhập cao lại làm giảm xác suất mua hàng (tùy mô hình thực tế).
>> Đọc thêm: Xử Lý Dữ Liệu Và Thực Hiện Hồi Quy Logistic Đơn Biến Trong SPSS Từ A => Z
2. Các thành phần và biến trong hồi quy logistic

Thành phần của hồi quy logistic
Hồi quy logistic là một mô hình thống kê được sử dụng để dự đoán xác suất xảy ra của một biến phụ thuộc nhị phân hoặc phân loại, dựa trên các biến độc lập. Trong SPSS, mô hình này được xây dựng từ các thành phần cơ bản sau:
2.1. Hàm logistic (hay còn gọi là hàm sigmoid)
Hàm sigmoid là một hàm số phi tuyến, được sử dụng để chuyển đổi các giá trị đầu vào thành các giá trị xác suất ở đầu ra trong khoảng từ 0 đến 1.
Hàm này là nền tảng của mô hình hồi quy logistic, giúp mô hình hóa mối quan hệ giữa các biến độc lập và xác suất của biến phụ thuộc.
2.2. Biến độc lập và biến phụ thuộc
Biến phụ thuộc: Là biến mà mô hình muốn dự đoán xác suất xảy ra và có giá trị rời rạc hoặc nhị phân (thường được mã hóa dưới dạng 0 hoặc 1).
Biến độc lập: Là các yếu tố đầu vào được sử dụng để dự đoán biến phụ thuộc. Chúng có thể là biến định lượng (quantitative) hoặc biến định tính (qualitative). Trong trường hợp biến định tính, SPSS sẽ tự động tạo ra các biến giả (dummy variables) để đưa vào mô hình hồi quy.
2.3. Tham số số hồi quy(β)
Là các giá trị được ước tính trong quá trình huấn luyện mô hình, thể hiện mức độ ảnh hưởng của mỗi biến độc lập đến biến phụ thuộc.
Các tham số này được ước lượng bằng phương pháp cực đại hóa khả năng xảy ra (Maximum Likelihood Estimation – MLE).
Giá trị β dương cho thấy biến X làm tăng xác suất Y xảy ra, còn β âm cho thấy biến X làm giảm xác suất đó.
2.4. Hàm mất mát (Loss Function)
Là hàm được sử dụng để đánh giá mức độ sai khác giữa giá trị dự đoán và giá trị thực tế.
Trong hồi quy logistic, hàm mất mát thường là hàm Negative Log-Likelihood, và mục tiêu của quá trình ước lượng là tối thiểu hóa giá trị hàm mất mát này nhằm đạt được mô hình có độ chính xác cao nhất.
Hệ số tương quan r là một khái niệm quen thuộc trong phân tích số liệu SPSS, tuy nhiên nó không phải là thành phần của mô hình hồi quy logistic. Thay vào đó, r chỉ được sử dụng trong giai đoạn kiểm tra mối quan hệ giữa các biến trước khi thực hiện hồi quy.
>> Tham khảo thêm: Dịch vụ viết thuê luận văn chuyên sâu theo từng lĩnh vực đào tạo
3. Phân tích hồi quy logistic trên phần mềm SPSS
Bước 1: Mở phần mềm SPSS và mở tập tin dữ liệu mà các bạn muốn phân tích.
- Trước tiên, bạn vào biểu tượng Analyze → Regression → Binary Logistic để mở hộp thoại Binary Logistic Regression, màn hình sẽ xuất hiện hộp thoại sau:

Mở hộp thoại Binary Logistic Regression trên phần mềm SPSS
- Sau khi Click vào, bạn sẽ thấy xuất hiện hộp thoại hồi quy Logistic như hình bên dưới:

Giao diện màn hình Logistic Regression trên phần mềm SPSS
Bước 2: Sắp xếp các biến trong hộp thoại
- Các bạn chuyển biến phụ thuộc Heart Disease vào hộp thoại Dependent, và chuyển các biến độc lập như Age, Weight, Gender và VO2max vào hộp thoại Covariates.

Sắp xếp các biến trong hộp thoại Dependent và Covariates
Bước 3: Mở hộp thoại Logistic Regression
- Tiếp đến chọn thư mục Categorical, bạn sẽ thấy hộp thoại Logistic Regression: Define Categorical Variables như bảng hiển thị bên dưới:

Giao diện hộp thoại Define Categorical Variables
Bước 4: Chuyển các biến vào hộp thoại lệnh
- Chọn biến độc lập independent variable trong ô Covariate(s) sang hộp thoại Categorical Covariates như bảng hiển thị dưới. Đây là các biến mà bạn muốn sử dụng để dự đoán biến phụ thuộc.

Chuyển biến độc lập sang ô Categorical Covariates
Bước 5: Bấm chọn các thanh trạng thái
- Trong mục Change Contrast, chuyển Reference Category từ Last sang First, sau đó nhấn nút Change như hướng dẫn bên dưới:

Chuyển Reference Category từ Last sang First
Bước 6: Nhấn nút Continue, các bạn sẽ thấy quay lại hộp thoại Logistic Regression.
Bước 7: Mở hộp thoại Logistic Regression
- Tiếp theo nhấn nút Option… bạn sẽ thấy hiện ra hộp thoại Logistic Regression: Options như hình dưới:

Giao diện hộp thoại Logistic Regression: Options
Bước 8: Chọn mục Statistics and Plots và tích các lựa chọn
- Trong mục Statistics and Plots, ấn vào các lựa chọn Classification plots, Hosmer-Lemeshow goodness-of-fit, Casewise listing of residuals, và Outliers outside.
- Tiếp đến tại mục Display, nhấn chọn At last step. Sau khi bấm vào các lựa chọn, màn hình của bạn sẽ hiện ra giống như bên dưới.

Tick chọn trong hộp thoại Logistic Regression: Options
Bước 9: Nhấn nút Continue, màn hình sẽ quay về hộp thoại Logistic Regression.
Bước 10: Hoàn thành lệnh, nhấn nút OK để bắt đầu phân tích hồi quy logistic
Lưu ý:
- Sau khi phân tích hoàn tất, SPSS sẽ hiển thị kết quả phân tích hồi quy logistic trên màn hình. Kết quả này bao gồm các thông số như Intercept, Odds Ratio, Confidence interval, p-value, Hosmer and Lemeshow goodness-of-fit test, và Confusion matrix.
- Bạn có thể sử dụng các thông số này để đánh giá hiệu quả của mô hình hồi quy logistic của mình. Nếu mô hình có độ chính xác cao và các biến độc lập có giá trị Odds Ratio lớn và p-value nhỏ, thì mô hình của bạn có thể được coi là hiệu quả.
- Lưu ý rằng việc phân tích hồi quy logistic trong SPSS cần phải được thực hiện kết hợp với các kiến thức về thống kê và phân tích dữ liệu để đưa ra kết quả chính xác và có ý nghĩa.
4. Cách đọc bảng kết quả hồi quy logistic

Ví dụ Bảng kết quả minh họa hồi quy logistic trên phần mềm SPSS
Khi chạy mô hình hồi quy logistic, phần mềm thống kê (như SPSS, R – gói glm(), Python – thư viện scikit-learn, hoặc Stata) sẽ hiển thị nhiều bảng kết quả khác nhau. Tuy nhiên, người phân tích cần tập trung vào các bảng chính phản ánh chất lượng và ý nghĩa của mô hình, bao gồm:
4.1. Bảng hệ số hồi quy – Coefficients / Variables in the Equation (SPSS)
Đây là bảng hiển thị các hệ số ước lượng (B) cho từng biến độc lập trong mô hình. Bảng này cho biết mức độ và chiều hướng ảnh hưởng của từng biến độc lập lên biến phụ thuộc, thông qua các thông số sau:
- Hệ số B (Coefficient): Cho biết hướng (dương hoặc âm) và cường độ ảnh hưởng của biến độc lập đến log-odds của biến phụ thuộc. Bảng này cho biết mức độ ảnh hưởng của từng biến đến biến phụ thuộc, được đo bằng giá trị hệ số. Đọc kết quả từ bảng này, ta có thể biết được đâu là các biến quan trọng trong mô hình.
- Giá trị Sig. (p-value): Nếu p < 0.05, biến có ý nghĩa thống kê, tức là có tác động đáng kể đến biến phụ thuộc.
- Exp(B): Là tỷ lệ chênh (Odds Ratio), thể hiện mức thay đổi của xác suất khi biến độc lập tăng 1 đơn vị.
- Kiểm định Wald test: Đây là bảng thể hiện giá trị Wald statistic, giá trị z-score, và giá trị p-value cho từng biến trong mô hình. Bảng này cho phép kiểm tra giả thuyết rằng các hệ số bằng không (null hypothesis) cho từng biến độc lập. Nếu giá trị p-value nhỏ hơn một ngưỡng xác định (thường là 0.05), ta có thể bác bỏ giả thuyết này và kết luận rằng biến đó ảnh hưởng đến biến phụ thuộc.
Kết luận: Dựa vào bảng này, có thể xác định biến nào có ảnh hưởng đáng kể đến biến phụ thuộc và chiều hướng tác động (tăng hay giảm xác suất xảy ra sự kiện).
4.2. Bảng Model Summary (SPSS)
Bảng Model Summary cung cấp các chỉ số đo lường mức độ phù hợp của mô hình (Model Fit), bao gồm:
- –2 Log Likelihood: Giá trị này càng nhỏ, mô hình càng phù hợp với dữ liệu.
- Cox & Snell R² và Nagelkerke R²: Tương tự như hệ số R² trong hồi quy tuyến tính, cho biết tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập.
Kết luận: Giá trị R² càng cao, mô hình càng có khả năng giải thích tốt dữ liệu và phản ánh mối quan hệ thực tế giữa các biến.
4.3. Bảng phân loại – Classification Table (SPSS) / Confusion Matrix (Python, R)
Đây là bảng tổng hợp kết quả phân loại của mô hình. Bảng này gồm các thông số True positive (TP), False positive (FP), False negative (FN), và True negative (TN). Các thông số này được sử dụng để tính toán các chỉ số đánh giá hiệu suất như Precision, Recall, F1-score, và Accuracy.
Trong SPSS, bảng này hiển thị dưới dạng Observed vs Predicted, kèm tỷ lệ đúng (%) của từng nhóm và tổng thể (Overall Percentage). Bảng này giúp đánh giá độ chính xác phân loại của mô hình. Tỷ lệ đúng càng cao, mô hình càng đáng tin cậy trong dự đoán thực tế.
4.4. Biểu đồ ROC và chỉ số AUC (tùy chọn)
Đây là biểu đồ đường cong ROC và giá trị AUC. Biểu đồ ROC (Receiver Operating Characteristic Curve) và chỉ số AUC (Area Under Curve) được sử dụng để đánh giá hiệu suất phân loại của mô hình, dựa trên khả năng phân biệt giữa các lớp.
Giá trị AUC thường nằm trong khoảng 0 đến 1, với giá trị càng gần 1 thì mô hình càng tốt. Trong đó:
- AUC > 0.7: mô hình tốt
- AUC > 0.9: mô hình rất tốt.
Kết luận: Giá trị AUC càng gần 1, mô hình phân loại càng chính xác và ổn định.
Để đọc và diễn giải chính xác từng bảng, người phân tích cần nắm rõ ý nghĩa của các chỉ số thống kê trong mô hình hồi quy logistic. Các phần mềm như SPSS, R, Python hay Stata đều cung cấp hướng dẫn chi tiết cho từng loại bảng. Nếu bạn gặp khó khăn trong việc đọc kết quả, bạn có thể tìm kiếm các tài liệu hướng dẫn hoặc tham khảo.
5. Ứng dụng của hồi quy logistic

Ứng dụng của hồi quy logistic
Hồi quy logistic là một phương pháp mạnh mẽ để dự đoán kết quả phân loại trong nhiều lĩnh vực khác nhau. Dưới đây là một số ứng dụng của hồi quy logistic trong các bài toán thực tế:
- Y học: Hồi quy logistic được sử dụng rộng rãi trong lĩnh vực y học để dự đoán xác suất mắc bệnh hoặc đáp ứng với một loại điều trị. Ví dụ, hồi quy logistic có thể được sử dụng để dự đoán xác suất mắc bệnh tiểu đường dựa trên các yếu tố như tuổi, chế độ ăn uống, lối sống và gia đình tiền sử.
- Kinh tế học: Hồi quy logistic cũng được sử dụng trong lĩnh vực kinh tế học để dự đoán các sự kiện như rủi ro tín dụng hoặc khả năng trả nợ của một khách hàng.
- Khoa học xã hội: Hồi quy logistic được sử dụng để phân tích và dự đoán các kết quả phân loại trong nhiều lĩnh vực khoa học xã hội như tâm lý học, xã hội học và giáo dục. Ví dụ, hồi quy logistic có thể được sử dụng để dự đoán xác suất một học sinh sẽ tốt nghiệp đại học dựa trên các yếu tố như thành tích học tập trước đây, điểm số kiểm tra và các yếu tố xã hội khác.
- Marketing: Hồi quy logistic cũng có thể được sử dụng trong lĩnh vực marketing để dự đoán xác suất một khách hàng sẽ mua một sản phẩm hoặc dịch vụ dựa trên các yếu tố như độ tuổi, giới tính, thu nhập và các hoạt động mua sắm trước đây.
- Các lĩnh vực khác: Hồi quy logistic cũng được sử dụng trong nhiều lĩnh vực khác như sinh học, môi trường học, khoa học vật liệu và công nghệ thông tin để dự đoán kết quả phân loại trong các bài toán thực tế.
6. Lưu ý khi sử dụng mô hình hồi quy logistic

Lưu ý khi sử dụng mô hình hồi quy logistic
Khi sử dụng mô hình hồi quy logistic, có một số lưu ý quan trọng mà người nghiên cứu cần cân nhắc để đảm bảo kết quả phân tích đáng tin cậy, chính xác và có ý nghĩa thống kê.
6.1. Trước khi xây dựng mô hình
- Xác định rõ mục đích của mô hình hồi quy logistic: Trước khi bắt đầu phân tích, bạn cần phải xác định rõ mục đích của mô hình hồi quy logistic của mình. Điều này giúp bạn chọn được các biến độc lập thích hợp và đưa ra các giải pháp phù hợp cho vấn đề của mình.
- Đảm bảo rằng các biến độc lập được chọn là độc lập tuyến tính: Để sử dụng hồi quy logistic, các biến độc lập phải được coi là độc lập tuyến tính. Nếu các biến độc lập không độc lập tuyến tính, kết quả của mô hình có thể không chính xác và khó giải thích.
6.2. Trong quá trình xây dựng mô hình
- Kiểm tra tính phân phối đối với các biến độc lập: Tính phân phối đối với các biến độc lập cũng là một yếu tố quan trọng khi sử dụng hồi quy logistic. Nếu một hoặc nhiều biến độc lập không được phân phối đều, điều này có thể ảnh hưởng đến kết quả của mô hình.
- Sử dụng một số phương pháp kiểm định để kiểm tra mô hình: Khi sử dụng hồi quy logistic, bạn cần sử dụng các phương pháp kiểm định như Hosmer and Lemeshow goodness-of-fit test và Confusion matrix để kiểm tra tính phù hợp của mô hình. Điều này giúp bạn đánh giá độ chính xác của mô hình và đưa ra các điều chỉnh cần thiết.
- Đảm bảo đủ mẫu: Để đạt được kết quả phân tích chính xác, bạn cần đảm bảo rằng mẫu của bạn đủ lớn và đại diện cho quần thể. Nếu mẫu quá nhỏ, điều này có thể ảnh hưởng đến độ chính xác của mô hình.
6.3. Sau khi xây dựng mô hình
- Cẩn trọng khi giải thích kết quả của mô hình: Khi giải thích kết quả của mô hình, bạn cần cẩn thận và tránh đưa ra những kết luận sai lầm hoặc chưa rõ. Bạn cần hiểu rõ ý nghĩa của các tham số trong mô hình và giải thích chúng một cách đầy đủ và chính xác. Nếu bạn không hiểu rõ kết quả của mô hình, hãy tìm hiểu thêm hoặc tìm sự giúp đỡ từ chuyên gia.
- Cẩn thận khi giải thích mối quan hệ giữa biến phụ thuộc và biến độc lập: Khi giải thích mối quan hệ giữa biến phụ thuộc và biến độc lập, bạn cần lưu ý rằng mô hình hồi quy logistic chỉ cho ta biết mối quan hệ giữa biến độc lập và xác suất của biến phụ thuộc. Nó không cho ta biết về mối quan hệ nhân quả giữa hai biến. Do đó, bạn cần cẩn thận khi giải thích kết quả của mô hình.
- Sử dụng kết quả của mô hình để đưa ra quyết định: Cuối cùng, khi sử dụng hồi quy logistic, bạn cần sử dụng kết quả của mô hình để đưa ra quyết định. Tuy nhiên, bạn cần cân nhắc các yếu tố khác ngoài kết quả của mô hình, bao gồm cả kiến thức chuyên môn và sự hiểu biết về vấn đề của bạn.
7. Phân biệt giữa hồi quy tuyến tính và hồi quy logistic

Phân biệt giữa hồi quy tuyến tính và hồi quy logistic
| Nội dung so sánh | Hồi quy tuyến tính | Hồi quy logistic |
| Biến phụ thuộc | Liên tục | Rời rạc hoặc nhị phân |
| Hàm mục tiêu | Tối thiểu hóa sai số giữa giá trị dự đoán và giá trị thực tế | Tối thiểu hóa sai số giữa giá trị dự đoán và giá trị thực tế, sử dụng hàm logistic để chuyển đổi đầu vào thành giá trị rời rạc hoặc nhị phân |
| Hàm mất mát | Bình phương sai số (Mean Squared Error) | Cross-entropy loss |
| Điểm mạnh | Dễ hiểu và đơn giản | Phù hợp với dữ liệu có biến phụ thuộc rời rạc hoặc nhị phân |
| Điểm yếu | Không phù hợp với dữ liệu có biến phụ thuộc rời rạc hoặc nhị phân | Khó hiểu với người không có kiến thức chuyên môn |
Trên đây là các điểm phân biệt giữa hồi quy tuyến tính và hồi quy logistic, mỗi phương pháp có ưu nhược điểm riêng và phù hợp với các loại dữ liệu khác nhau. Các bạn còn gặp khó khăn trong việc chạy stata như số liệu kết quả cho ra xấu, không phù hợp, chưa có đủ kinh nghiệm xử lý số liệu, còn hạn chế về thời gian…Luận văn 1080 dịch vụ chạy spss thuê đạt kết quả cao, đảm bảo theo yêu cầu của khách hàng với giá cả hợp lý, phải chăng. Hãy liên hệ chúng tôi ngay!
Như vậy, bài viết trên đã chia sẻ lý thuyết, các thành phần, ứng dụng cũng như hướng dẫn chi tiết, đầy đủ cách chạy và đọc kết quả của hồi quy logistic mới nhất. Hy vọng sẽ giúp thêm kinh nghiệm phân tích hồi quy cho các bạn. Chúc các bạn thành công khi phân tích!