Happy Horse 1.1 dễ sử dụng nhất khi bạn bắt đầu từ đúng trang trình tạo. Dùng text-to-video khi ý tưởng chỉ mới tồn tại dưới dạng prompt, image-to-video khi bạn đã có một khung hình đầu tiên đủ mạnh, và reference-to-video khi tính nhất quán của nhân vật, sản phẩm hoặc phong cách quan trọng hơn sự tự do tuyệt đối của prompt.
Chúng tôi đã chụp ảnh màn hình trong hướng dẫn này từ trình tạo TryHappyHorseAI đang hoạt động vào ngày 24 tháng 6 năm 2026, sau khi các trang công khai tải xong. Nếu bạn muốn xem tổng quan bản phát hành rộng hơn trước, hãy đọc Happy Horse 1.1 đã ra mắt: Có gì thay đổi và cách sử dụng. Bạn cũng có thể bắt đầu từ trung tâm trình tạo video Happy Horse AI nếu muốn so sánh tất cả các chế độ tạo trước khi chọn một trang chuyên biệt. Bài viết này là phần đồng hành thực hành: nên mở trang nào, nên chỉnh cài đặt nào, cách viết prompt và nên nghiên cứu những ví dụ nào.

Bản đồ quy trình nhanh
Ba trang tạo nội dung của Happy Horse 1.1 được tách riêng vì một lý do. Tất cả đều tạo video, nhưng mỗi trang yêu cầu một loại tài nguyên khởi đầu khác nhau.
| Trang | Bắt đầu với | Phù hợp nhất cho | Mở tại |
|---|---|---|---|
| Text to Video | Một cảnh viết sẵn | Clip ý tưởng, thử nghiệm điện ảnh, ý tưởng social, biến thể quảng cáo | Text to Video |
| Image to Video | Một hình khung đầu tiên | Chuyển động sản phẩm, chân dung, poster, vòng lặp hình ảnh | Image to Video |
| Reference to Video | Tối đa 9 hình tham chiếu | Nhất quán nhân vật, trang phục, chi tiết sản phẩm, phong cách chiến dịch lặp lại | Reference to Video |
Sai lầm cần tránh là dùng một prompt dài hơn để bù cho việc chọn sai chế độ. Nếu bạn đã có đúng ảnh sản phẩm cần dùng, image-to-video thường sẽ tốt hơn text-to-video. Nếu bạn cần giữ nguyên cùng một người hoặc bộ trang phục trong một cảnh mới, reference-to-video thường sẽ tốt hơn cả hai.
1. Text to Video: Xây dựng cảnh từ đầu
Dùng Text to Video khi cảnh vẫn còn linh hoạt. Đây là chế độ nhanh nhất để khám phá ý tưởng vì prompt gánh toàn bộ cảnh quay: chủ thể, hành động, máy quay, môi trường, ánh sáng, tâm trạng và định hướng âm thanh.

Các điều khiển quan trọng nhất trên trang này là:
| Điều khiển | Cách dùng thực tế |
|---|---|
| Model | Chọn Happy Horse 1.1 cho công việc T2V mới. |
| Prompt | Mô tả cảnh nhìn thấy được, chuyển động máy quay, tâm trạng và âm thanh. |
| Resolution | Dùng 720p để lặp thử nhanh hơn và 1080p để có bản render cuối mạnh hơn. |
| Aspect ratio | Chọn định dạng mục tiêu trước khi tạo: 16:9, 9:16, 1:1, 4:3, 3:4, 4:5, 5:4, 9:21, hoặc 21:9. |
| Duration | Chọn độ dài clip ngắn từ 3 đến 15 giây. |
| Seed | Tái sử dụng seed khi bạn muốn một hướng biến thể có thể lặp lại hơn. |
| Generate audio | Bật khi cảnh cần lời thoại, âm thanh môi trường hoặc âm thanh hành động. |
Công thức prompt text-to-video gọn nhất là:
Chủ thể + hành động + môi trường + chuyển động máy quay + ánh sáng + tâm trạng + gợi ý âm thanh + định dạng
Ví dụ:
Một vũ công ballet chuyên nghiệp thực hiện cú grand jeté đầy uy lực trên sân khấu ánh sáng mờ, hai tay dang rộng, váy tutu tung bay trong chuyển động chậm. Máy quay bám theo từ góc thấp bên hông, đèn chiếu ấm tạo bóng dài trên sàn, ánh sáng sân khấu đậm chất điện ảnh, chuyển động vải nhẹ, 10 giây, 16:9.
Các ví dụ T2V nổi bật hiện tại rất hữu ích vì chúng cho thấy nhiều kiểu kiểm soát khác nhau: đối thoại nhiều người, biên đạo đánh nhau, chuyển động one-take, chuyển động thể thao và ballet. Khi nghiên cứu chúng, hãy nhìn ít vào chủ thể hơn và nhiều hơn vào cấu trúc: các ví dụ tốt hơn sẽ mô tả ai có trong cảnh, máy quay di chuyển thế nào, điều gì thay đổi theo thời gian và âm thanh nên diễn ra ra sao.
Ví dụ text-to-video nên nghiên cứu
Mẫu ballet là một ví dụ prompt-first rất gọn vì prompt đưa ra một chủ thể duy nhất, môi trường sân khấu, phong cách máy quay và vốn từ chuyển động rõ ràng.
Mẫu tương tác nhiều người hữu ích cho dạng prompt theo phong cách đối thoại. Hãy chú ý cách prompt tách cảnh, chủ thể, chuyển động và các nhịp âm thanh thay vì xem toàn bộ clip như một chỉ dẫn chung chung.
2. Image to Video: Làm chuyển động từ khung hình đầu tiên
Dùng Image to Video khi bạn đã có sẵn khung hình hình ảnh mình muốn. Hình ảnh tải lên đã làm phần lớn công việc, nên prompt nên dẫn dắt chuyển động thay vì phát minh lại toàn bộ cảnh quay.

Image-to-video mạnh nhất khi hình nguồn đã có sẵn:
- một chủ thể rõ ràng
- hướng ánh sáng sạch
- độ sâu tiền cảnh và hậu cảnh dễ đọc
- bố cục cắt khung bạn muốn cho video cuối
- đủ chi tiết để model giữ được nhận diện hoặc hình dạng sản phẩm
Công thức prompt thực tế là:
Giữ nguyên hình ảnh đã tải lên + thêm chuyển động hợp lý + thêm chuyển động máy quay + bảo vệ các chi tiết quan trọng
Ví dụ cho hình ảnh sản phẩm:
Làm chuyển động chai nước hoa ở khung hình đầu với cú đẩy máy chậm đậm chất điện ảnh, làn sương hổ phách nhẹ trôi quanh phần đáy, quét sáng tinh tế trên mặt kính, phản chiếu chân thực, giữ nguyên hình dáng chai, nhãn, màu sắc và bố cục mặt bàn.
Ví dụ cho chân dung:
Làm chuyển động bức chân dung với cái chớp mắt nhẹ, nhịp thở tự nhiên, tóc lay động nhẹ và máy quay trôi chậm. Giữ nguyên khuôn mặt, trang phục, bố cục nền và ánh sáng ban đầu.
Với chế độ này, hãy cắt khung trước khi tải lên. Nếu bạn muốn video ngắn dọc, hãy chuẩn bị khung hình đầu tiên theo chiều dọc. Nếu bạn muốn một vòng lặp màn hình ngang cho landing page, hãy chuẩn bị khung hình đầu tiên theo chiều ngang. Image-to-video không phải là nơi để yêu cầu model tái bố cục triệt để một khung hình đã hoàn thiện.
Các ví dụ I2V nổi bật hiện tại là tài liệu tham khảo tốt cho nhiều dạng công việc với hình nguồn: cảnh hành động trong lớp học, hình thủ công chi tiết, ảnh chụp sản phẩm nước hoa và cảnh kiểu quán rượu cổ. Mẫu số chung rất rõ: hình nguồn mạnh trước, chuyển động tiết chế sau.
Ví dụ image-to-video nên nghiên cứu
Mẫu nước hoa là kiểu I2V dễ tái sử dụng nhất cho công việc thương mại: giữ nguyên sản phẩm, thêm bầu không khí, rồi để chuyển động máy quay và ánh sáng tạo cảm giác cao cấp.
Mẫu đánh nhau trong lớp học là một trường hợp I2V khó hơn. Nó hữu ích vì prompt dùng phần lớn ngân sách chi tiết cho hành động nhân-quả, tương tác với môi trường và đồng bộ máy quay.
Để xem hướng dẫn sâu hơn về quy trình này, hãy đọc Happy Horse AI Image to Video: Hướng dẫn đầy đủ kèm ví dụ.
3. Reference to Video: Giữ nguyên nhận diện và phong cách
Dùng Reference to Video khi chỉ dùng prompt là chưa đủ. Chế độ này cho phép bạn tải lên nhiều hình tham chiếu và mô tả cách chúng nên kiểm soát video được tạo ra.

Happy Horse 1.1 hỗ trợ tối đa 9 hình tham chiếu trong quy trình này. Phần quan trọng không chỉ là tải hình lên; mà còn là đặt tên vai trò của chúng rõ ràng trong prompt.
Hãy dùng cấu trúc này:
Dùng character1 cho [nhận diện/khuôn mặt/trang phục].
Dùng character2 cho [người thứ hai hoặc sinh vật].
Dùng image3 cho [địa điểm/sản phẩm/phong cách].
Mô tả hành động, máy quay, ánh sáng và âm thanh.
Ví dụ:
Dùng character1 làm kiếm sĩ, giữ nguyên khuôn mặt, áo choàng đen và mái tóc bạc của anh ấy. Dùng character2 làm công chúa rồng, giữ nguyên vương miện và giáp vai như vảy của cô ấy. Họ đối mặt nhau trong sân cung điện mưa rơi, máy quay chuyển động vòng tròn chậm, ánh đèn lồng kịch tính, chuyển động võ thuật tiết chế, chất hiện thực giả tưởng đậm tính điện ảnh, 16:9.
Reference-to-video phù hợp nhất cho:
- tính nhất quán nhân vật giữa các cảnh
- kể chuyện nhiều nhân vật
- video sản phẩm nơi vật thể phải luôn dễ nhận ra
- concept influencer hoặc presenter với trang phục và khuôn mặt ổn định
- chiến dịch quảng cáo cần lặp lại cùng một ngôn ngữ hình ảnh
Các ví dụ R2V nổi bật hiện tại bao phủ đúng dải tình huống: cảnh võ thuật, ghép cặp nhân vật giả tưởng, thay đổi biểu cảm, trình bày live-shopping và prompt tập trung vào vật thể. Khi nghiên cứu chúng, hãy chú ý cách văn bản gán vai trò cho từng hình tham chiếu. Một prompt mơ hồ như "dùng các hình này" sẽ yếu hơn "dùng character1 cho nhận diện, image2 cho trang phục và image3 cho hình dạng sản phẩm."
Ví dụ reference-to-video nên nghiên cứu
Mẫu võ thuật là một ví dụ gán vai trò trực tiếp: image1 và image2 được xem là hai đấu sĩ, trong khi prompt xác định cảnh và hành động chung.
Mẫu live-shopping cho thấy vì sao R2V hữu ích không chỉ trong giả tưởng hay hành động. Prompt ánh xạ hình tham chiếu tới người trình bày, trang phục, sản phẩm và bối cảnh nhà ở, rồi thêm các nhịp thoại theo thời gian.
Những cài đặt quan trọng trên cả ba trang
Phần lớn các lần tạo thất bại đến từ việc mục tiêu không khớp với cài đặt, chứ không phải do một tính từ dở trong prompt.
| Cài đặt | Hãy dùng theo cách này |
|---|---|
| Duration | Bắt đầu với 5 giây để thử nghiệm. Dùng 8-10 giây khi chuyển động cần thời gian để phát triển. Tránh yêu cầu quá nhiều nhịp hành động trong 3 giây. |
| Resolution | Lặp thử ở 720p; chuyển sang 1080p khi ý tưởng đủ đáng để hoàn thiện. |
| Aspect ratio | Với text-to-video và reference-to-video, hãy đặt tỷ lệ nền tảng cuối trước khi tạo. Với image-to-video, hãy chuẩn bị khung hình đầu tiên theo đúng crop mong muốn. |
| Seed | Chỉ dùng sau khi bạn đã có một hướng prompt đáng để khai thác. Nó phù hợp hơn cho biến thể có kiểm soát hơn là cứu một prompt yếu. |
| Audio | Bật âm thanh khi lời thoại, âm thanh môi trường, nhạc hoặc hiệu ứng hành động là một phần của cảnh. Nếu bạn cần một vòng lặp hình ảnh im lặng, hãy nói rõ trong prompt. |
| Reference images | Hãy dùng ít hình tham chiếu nhưng rõ ràng trước khi tải cả 9 hình lên. Mỗi hình tham chiếu nên có một nhiệm vụ riêng. |
Nếu bạn đang viết prompt từ đầu, hãy mở 50 prompt Happy Horse AI thực sự hiệu quả như một tài liệu đồng hành. Các ví dụ ở đó là mẫu 1.0 cũ hơn, nhưng cấu trúc prompt vẫn chuyển sang 1.1 rất tốt.
Mẫu prompt có thể tái sử dụng
Mẫu text-to-video
[Chủ thể] đang [hành động] trong [môi trường]. Máy quay [chuyển động], với [ánh sáng] và [tâm trạng]. Bao gồm [gợi ý âm thanh]. Giữ [ràng buộc phong cách]. Định dạng: [tỷ lệ khung hình], [thời lượng].
Mẫu image-to-video
Làm chuyển động hình ảnh đã tải lên với [chuyển động nhỏ], [chuyển động máy quay] và [chi tiết môi trường]. Giữ nguyên [nhận diện/hình dạng sản phẩm/bố cục/ánh sáng]. Tránh thay đổi [chi tiết cần bảo vệ].
Mẫu reference-to-video
Dùng character1 làm [vai trò] và giữ nguyên [chi tiết nhận diện]. Dùng image2 làm [tham chiếu phong cách/địa điểm/sản phẩm]. Tạo [hành động trong cảnh] với [chuyển động máy quay], [ánh sáng] và [âm thanh/tâm trạng]. Giữ tất cả các hình tham chiếu chính nhất quán.
Những lỗi thường gặp
Lỗi 1: Yêu cầu text-to-video giữ nhận diện cố định.
Nếu nhận diện phải ổn định, hãy dùng reference-to-video thay thế.
Lỗi 2: Tải lên một khung hình đầu tiên yếu.
Image-to-video không thể sửa đáng tin cậy ánh sáng kém, bố cục rối hoặc nhận diện chủ thể không rõ.
Lỗi 3: Dùng mọi hình tham chiếu chỉ vì có thể.
Có sẵn chín hình tham chiếu, nhưng ba hình rõ ràng thường tốt hơn chín hình dư thừa.
Lỗi 4: Quên định dạng mục tiêu.
Một video dọc kiểu TikTok và một clip ngang kiểu YouTube không nên bắt đầu từ cùng một tỷ lệ.
Lỗi 5: Nhồi quá nhiều vào thời lượng ngắn.
Đừng yêu cầu năm chuyển động máy quay, ba cảm xúc và cả một chuỗi hành động đầy đủ trong clip 5 giây. Hãy chọn một khoảnh khắc quan trọng nhất.
Công thức khởi đầu được khuyến nghị
| Mục tiêu | Trang | Cài đặt khởi đầu | Hướng prompt |
|---|---|---|---|
| Cảnh ý tưởng nhanh | Text to Video | 720p, 5s, tỷ lệ mục tiêu | Chủ thể rõ, một hành động, một chuyển động máy quay |
| Vòng lặp quảng cáo sản phẩm trên social | Image to Video | Ảnh sản phẩm, 1080p bản cuối | Giữ nguyên sản phẩm, thêm sương/quét sáng/đẩy máy chậm |
| Nhịp truyện nhân vật | Reference to Video | 2-4 hình tham chiếu, 5-8s | Ánh xạ character1, character2, địa điểm/phong cách |
| Thử nghiệm thoại hoặc âm thanh môi trường | Text or Reference | Bật audio, 5-8s | Viết trực tiếp câu thoại hoặc nền âm thanh |
| Tính nhất quán chiến dịch | Reference to Video | Cùng bộ tham chiếu qua nhiều lần thử | Giữ vai trò tham chiếu ổn định, thay đổi hành động cảnh |
FAQ
Chế độ Happy Horse 1.1 nào là tốt nhất để bắt đầu?
Hãy bắt đầu với text-to-video nếu bạn chỉ có ý tưởng, image-to-video nếu bạn đã có một ảnh tĩnh hoàn chỉnh, và reference-to-video nếu nhận diện, hình dạng sản phẩm, trang phục hoặc tính nhất quán phong cách là quan trọng.
Happy Horse 1.1 có hỗ trợ image-to-video không?
Có. Happy Horse 1.1 hỗ trợ image-to-video trên trang chuyên biệt Image to Video. Tải lên một khung hình đầu tiên, sau đó dùng motion prompt để mô tả chuyển động máy quay và chuyển động của cảnh.
Tôi có thể dùng bao nhiêu hình tham chiếu?
Quy trình reference-to-video của Happy Horse 1.1 hỗ trợ tối đa 9 hình tham chiếu. Hãy dùng nhãn vai trò rõ ràng như character1, character2 hoặc image3 trong prompt để model biết mỗi hình tham chiếu kiểm soát điều gì.
Tôi nên dùng 720p hay 1080p?
Dùng 720p để thử prompt nhanh hơn và 1080p khi bạn đã sẵn sàng hoàn thiện một hướng mạnh. Độ phân giải không sửa được prompt yếu, vì vậy hãy lặp trên cấu trúc cảnh trước khi chi thêm cho chất lượng cuối.
Happy Horse 1.1 có thay thế chỉnh sửa video không?
Chưa phải với mọi quy trình. Happy Horse 1.1 là mặc định cho text-to-video, image-to-video và reference-to-video. Nếu bạn cần chỉnh sửa một video có sẵn, hãy dùng quy trình video-edit hiện tại cho đến khi hỗ trợ chỉnh sửa 1.1 trở thành một phần của luồng trình tạo công khai.
Thử ba trang Happy Horse 1.1
Bước tiếp theo dễ nhất là mở trang phù hợp với tài nguyên khởi đầu của bạn:
Nếu bạn vẫn đang cân nhắc model đã thay đổi gì, hãy bắt đầu với hướng dẫn phát hành Happy Horse 1.1, rồi quay lại đây và thử ba quy trình song song với nhau.
