Hướng dẫn sử dụng Happy Horse 1.1 Generator

Happy Horse 1.1 dễ sử dụng nhất khi bạn bắt đầu từ đúng trang trình tạo. Dùng text-to-video khi ý tưởng chỉ mới tồn tại dưới dạng prompt, image-to-video khi bạn đã có một khung hình đầu tiên đủ mạnh, và reference-to-video khi tính nhất quán của nhân vật, sản phẩm hoặc phong cách quan trọng hơn sự tự do tuyệt đối của prompt.

Chúng tôi đã chụp ảnh màn hình trong hướng dẫn này từ trình tạo TryHappyHorseAI đang hoạt động vào ngày 24 tháng 6 năm 2026, sau khi các trang công khai tải xong. Nếu bạn muốn xem tổng quan bản phát hành rộng hơn trước, hãy đọc Happy Horse 1.1 đã ra mắt: Có gì thay đổi và cách sử dụng. Bạn cũng có thể bắt đầu từ trung tâm trình tạo video Happy Horse AI nếu muốn so sánh tất cả các chế độ tạo trước khi chọn một trang chuyên biệt. Bài viết này là phần đồng hành thực hành: nên mở trang nào, nên chỉnh cài đặt nào, cách viết prompt và nên nghiên cứu những ví dụ nào.

Trang chủ trình tạo Happy Horse 1.1 với các chế độ video từ văn bản, hình ảnh và tham chiếu

Bản đồ quy trình nhanh

Ba trang tạo nội dung của Happy Horse 1.1 được tách riêng vì một lý do. Tất cả đều tạo video, nhưng mỗi trang yêu cầu một loại tài nguyên khởi đầu khác nhau.

Trang	Bắt đầu với	Phù hợp nhất cho	Mở tại
Text to Video	Một cảnh viết sẵn	Clip ý tưởng, thử nghiệm điện ảnh, ý tưởng social, biến thể quảng cáo	Text to Video
Image to Video	Một hình khung đầu tiên	Chuyển động sản phẩm, chân dung, poster, vòng lặp hình ảnh	Image to Video
Reference to Video	Tối đa 9 hình tham chiếu	Nhất quán nhân vật, trang phục, chi tiết sản phẩm, phong cách chiến dịch lặp lại	Reference to Video

Sai lầm cần tránh là dùng một prompt dài hơn để bù cho việc chọn sai chế độ. Nếu bạn đã có đúng ảnh sản phẩm cần dùng, image-to-video thường sẽ tốt hơn text-to-video. Nếu bạn cần giữ nguyên cùng một người hoặc bộ trang phục trong một cảnh mới, reference-to-video thường sẽ tốt hơn cả hai.

1. Text to Video: Xây dựng cảnh từ đầu

Dùng Text to Video khi cảnh vẫn còn linh hoạt. Đây là chế độ nhanh nhất để khám phá ý tưởng vì prompt gánh toàn bộ cảnh quay: chủ thể, hành động, máy quay, môi trường, ánh sáng, tâm trạng và định hướng âm thanh.

Trang trình tạo text-to-video của Happy Horse 1.1 với prompt, tỷ lệ khung hình, thời lượng, seed, âm thanh, xem trước và ví dụ

Các điều khiển quan trọng nhất trên trang này là:

Điều khiển	Cách dùng thực tế
Model	Chọn Happy Horse 1.1 cho công việc T2V mới.
Prompt	Mô tả cảnh nhìn thấy được, chuyển động máy quay, tâm trạng và âm thanh.
Resolution	Dùng `720p` để lặp thử nhanh hơn và `1080p` để có bản render cuối mạnh hơn.
Aspect ratio	Chọn định dạng mục tiêu trước khi tạo: `16:9`, `9:16`, `1:1`, `4:3`, `3:4`, `4:5`, `5:4`, `9:21`, hoặc `21:9`.
Duration	Chọn độ dài clip ngắn từ 3 đến 15 giây.
Seed	Tái sử dụng seed khi bạn muốn một hướng biến thể có thể lặp lại hơn.
Generate audio	Bật khi cảnh cần lời thoại, âm thanh môi trường hoặc âm thanh hành động.

Công thức prompt text-to-video gọn nhất là:

Chủ thể + hành động + môi trường + chuyển động máy quay + ánh sáng + tâm trạng + gợi ý âm thanh + định dạng

Ví dụ:

Một vũ công ballet chuyên nghiệp thực hiện cú grand jeté đầy uy lực trên sân khấu ánh sáng mờ, hai tay dang rộng, váy tutu tung bay trong chuyển động chậm. Máy quay bám theo từ góc thấp bên hông, đèn chiếu ấm tạo bóng dài trên sàn, ánh sáng sân khấu đậm chất điện ảnh, chuyển động vải nhẹ, 10 giây, 16:9.

Các ví dụ T2V nổi bật hiện tại rất hữu ích vì chúng cho thấy nhiều kiểu kiểm soát khác nhau: đối thoại nhiều người, biên đạo đánh nhau, chuyển động one-take, chuyển động thể thao và ballet. Khi nghiên cứu chúng, hãy nhìn ít vào chủ thể hơn và nhiều hơn vào cấu trúc: các ví dụ tốt hơn sẽ mô tả ai có trong cảnh, máy quay di chuyển thế nào, điều gì thay đổi theo thời gian và âm thanh nên diễn ra ra sao.

Ví dụ text-to-video nên nghiên cứu

Mẫu ballet là một ví dụ prompt-first rất gọn vì prompt đưa ra một chủ thể duy nhất, môi trường sân khấu, phong cách máy quay và vốn từ chuyển động rõ ràng.

Mẫu tương tác nhiều người hữu ích cho dạng prompt theo phong cách đối thoại. Hãy chú ý cách prompt tách cảnh, chủ thể, chuyển động và các nhịp âm thanh thay vì xem toàn bộ clip như một chỉ dẫn chung chung.

2. Image to Video: Làm chuyển động từ khung hình đầu tiên

Dùng Image to Video khi bạn đã có sẵn khung hình hình ảnh mình muốn. Hình ảnh tải lên đã làm phần lớn công việc, nên prompt nên dẫn dắt chuyển động thay vì phát minh lại toàn bộ cảnh quay.

Trang trình tạo image-to-video của Happy Horse 1.1 với tải lên khung đầu tiên, prompt chuyển động, độ phân giải, thời lượng, seed, xem trước và ví dụ

Image-to-video mạnh nhất khi hình nguồn đã có sẵn:

một chủ thể rõ ràng
hướng ánh sáng sạch
độ sâu tiền cảnh và hậu cảnh dễ đọc
bố cục cắt khung bạn muốn cho video cuối
đủ chi tiết để model giữ được nhận diện hoặc hình dạng sản phẩm

Công thức prompt thực tế là:

Giữ nguyên hình ảnh đã tải lên + thêm chuyển động hợp lý + thêm chuyển động máy quay + bảo vệ các chi tiết quan trọng

Ví dụ cho hình ảnh sản phẩm:

Làm chuyển động chai nước hoa ở khung hình đầu với cú đẩy máy chậm đậm chất điện ảnh, làn sương hổ phách nhẹ trôi quanh phần đáy, quét sáng tinh tế trên mặt kính, phản chiếu chân thực, giữ nguyên hình dáng chai, nhãn, màu sắc và bố cục mặt bàn.

Ví dụ cho chân dung:

Làm chuyển động bức chân dung với cái chớp mắt nhẹ, nhịp thở tự nhiên, tóc lay động nhẹ và máy quay trôi chậm. Giữ nguyên khuôn mặt, trang phục, bố cục nền và ánh sáng ban đầu.

Với chế độ này, hãy cắt khung trước khi tải lên. Nếu bạn muốn video ngắn dọc, hãy chuẩn bị khung hình đầu tiên theo chiều dọc. Nếu bạn muốn một vòng lặp màn hình ngang cho landing page, hãy chuẩn bị khung hình đầu tiên theo chiều ngang. Image-to-video không phải là nơi để yêu cầu model tái bố cục triệt để một khung hình đã hoàn thiện.

Các ví dụ I2V nổi bật hiện tại là tài liệu tham khảo tốt cho nhiều dạng công việc với hình nguồn: cảnh hành động trong lớp học, hình thủ công chi tiết, ảnh chụp sản phẩm nước hoa và cảnh kiểu quán rượu cổ. Mẫu số chung rất rõ: hình nguồn mạnh trước, chuyển động tiết chế sau.

Ví dụ image-to-video nên nghiên cứu

Mẫu nước hoa là kiểu I2V dễ tái sử dụng nhất cho công việc thương mại: giữ nguyên sản phẩm, thêm bầu không khí, rồi để chuyển động máy quay và ánh sáng tạo cảm giác cao cấp.

Mẫu đánh nhau trong lớp học là một trường hợp I2V khó hơn. Nó hữu ích vì prompt dùng phần lớn ngân sách chi tiết cho hành động nhân-quả, tương tác với môi trường và đồng bộ máy quay.

Để xem hướng dẫn sâu hơn về quy trình này, hãy đọc Happy Horse AI Image to Video: Hướng dẫn đầy đủ kèm ví dụ.

3. Reference to Video: Giữ nguyên nhận diện và phong cách

Dùng Reference to Video khi chỉ dùng prompt là chưa đủ. Chế độ này cho phép bạn tải lên nhiều hình tham chiếu và mô tả cách chúng nên kiểm soát video được tạo ra.

Trang trình tạo reference-to-video của Happy Horse 1.1 với tải lên nhiều hình, prompt cảnh, tỷ lệ khung hình, thời lượng, seed, xem trước và ví dụ

Happy Horse 1.1 hỗ trợ tối đa 9 hình tham chiếu trong quy trình này. Phần quan trọng không chỉ là tải hình lên; mà còn là đặt tên vai trò của chúng rõ ràng trong prompt.

Hãy dùng cấu trúc này:

Dùng character1 cho [nhận diện/khuôn mặt/trang phục].
Dùng character2 cho [người thứ hai hoặc sinh vật].
Dùng image3 cho [địa điểm/sản phẩm/phong cách].
Mô tả hành động, máy quay, ánh sáng và âm thanh.

Ví dụ:

Dùng character1 làm kiếm sĩ, giữ nguyên khuôn mặt, áo choàng đen và mái tóc bạc của anh ấy. Dùng character2 làm công chúa rồng, giữ nguyên vương miện và giáp vai như vảy của cô ấy. Họ đối mặt nhau trong sân cung điện mưa rơi, máy quay chuyển động vòng tròn chậm, ánh đèn lồng kịch tính, chuyển động võ thuật tiết chế, chất hiện thực giả tưởng đậm tính điện ảnh, 16:9.

Reference-to-video phù hợp nhất cho:

tính nhất quán nhân vật giữa các cảnh
kể chuyện nhiều nhân vật
video sản phẩm nơi vật thể phải luôn dễ nhận ra
concept influencer hoặc presenter với trang phục và khuôn mặt ổn định
chiến dịch quảng cáo cần lặp lại cùng một ngôn ngữ hình ảnh

Các ví dụ R2V nổi bật hiện tại bao phủ đúng dải tình huống: cảnh võ thuật, ghép cặp nhân vật giả tưởng, thay đổi biểu cảm, trình bày live-shopping và prompt tập trung vào vật thể. Khi nghiên cứu chúng, hãy chú ý cách văn bản gán vai trò cho từng hình tham chiếu. Một prompt mơ hồ như "dùng các hình này" sẽ yếu hơn "dùng character1 cho nhận diện, image2 cho trang phục và image3 cho hình dạng sản phẩm."

Ví dụ reference-to-video nên nghiên cứu

Mẫu võ thuật là một ví dụ gán vai trò trực tiếp: image1 và image2 được xem là hai đấu sĩ, trong khi prompt xác định cảnh và hành động chung.

Mẫu live-shopping cho thấy vì sao R2V hữu ích không chỉ trong giả tưởng hay hành động. Prompt ánh xạ hình tham chiếu tới người trình bày, trang phục, sản phẩm và bối cảnh nhà ở, rồi thêm các nhịp thoại theo thời gian.

Những cài đặt quan trọng trên cả ba trang

Phần lớn các lần tạo thất bại đến từ việc mục tiêu không khớp với cài đặt, chứ không phải do một tính từ dở trong prompt.

Cài đặt	Hãy dùng theo cách này
Duration	Bắt đầu với 5 giây để thử nghiệm. Dùng 8-10 giây khi chuyển động cần thời gian để phát triển. Tránh yêu cầu quá nhiều nhịp hành động trong 3 giây.
Resolution	Lặp thử ở `720p`; chuyển sang `1080p` khi ý tưởng đủ đáng để hoàn thiện.
Aspect ratio	Với text-to-video và reference-to-video, hãy đặt tỷ lệ nền tảng cuối trước khi tạo. Với image-to-video, hãy chuẩn bị khung hình đầu tiên theo đúng crop mong muốn.
Seed	Chỉ dùng sau khi bạn đã có một hướng prompt đáng để khai thác. Nó phù hợp hơn cho biến thể có kiểm soát hơn là cứu một prompt yếu.
Audio	Bật âm thanh khi lời thoại, âm thanh môi trường, nhạc hoặc hiệu ứng hành động là một phần của cảnh. Nếu bạn cần một vòng lặp hình ảnh im lặng, hãy nói rõ trong prompt.
Reference images	Hãy dùng ít hình tham chiếu nhưng rõ ràng trước khi tải cả 9 hình lên. Mỗi hình tham chiếu nên có một nhiệm vụ riêng.

Nếu bạn đang viết prompt từ đầu, hãy mở 50 prompt Happy Horse AI thực sự hiệu quả như một tài liệu đồng hành. Các ví dụ ở đó là mẫu 1.0 cũ hơn, nhưng cấu trúc prompt vẫn chuyển sang 1.1 rất tốt.

Mẫu prompt có thể tái sử dụng

Mẫu text-to-video

[Chủ thể] đang [hành động] trong [môi trường]. Máy quay [chuyển động], với [ánh sáng] và [tâm trạng]. Bao gồm [gợi ý âm thanh]. Giữ [ràng buộc phong cách]. Định dạng: [tỷ lệ khung hình], [thời lượng].

Mẫu image-to-video

Làm chuyển động hình ảnh đã tải lên với [chuyển động nhỏ], [chuyển động máy quay] và [chi tiết môi trường]. Giữ nguyên [nhận diện/hình dạng sản phẩm/bố cục/ánh sáng]. Tránh thay đổi [chi tiết cần bảo vệ].

Mẫu reference-to-video

Dùng character1 làm [vai trò] và giữ nguyên [chi tiết nhận diện]. Dùng image2 làm [tham chiếu phong cách/địa điểm/sản phẩm]. Tạo [hành động trong cảnh] với [chuyển động máy quay], [ánh sáng] và [âm thanh/tâm trạng]. Giữ tất cả các hình tham chiếu chính nhất quán.

Những lỗi thường gặp

Lỗi 1: Yêu cầu text-to-video giữ nhận diện cố định.
Nếu nhận diện phải ổn định, hãy dùng reference-to-video thay thế.

Lỗi 2: Tải lên một khung hình đầu tiên yếu.
Image-to-video không thể sửa đáng tin cậy ánh sáng kém, bố cục rối hoặc nhận diện chủ thể không rõ.

Lỗi 3: Dùng mọi hình tham chiếu chỉ vì có thể.
Có sẵn chín hình tham chiếu, nhưng ba hình rõ ràng thường tốt hơn chín hình dư thừa.

Lỗi 4: Quên định dạng mục tiêu.
Một video dọc kiểu TikTok và một clip ngang kiểu YouTube không nên bắt đầu từ cùng một tỷ lệ.

Lỗi 5: Nhồi quá nhiều vào thời lượng ngắn.
Đừng yêu cầu năm chuyển động máy quay, ba cảm xúc và cả một chuỗi hành động đầy đủ trong clip 5 giây. Hãy chọn một khoảnh khắc quan trọng nhất.

Công thức khởi đầu được khuyến nghị

Mục tiêu	Trang	Cài đặt khởi đầu	Hướng prompt
Cảnh ý tưởng nhanh	Text to Video	`720p`, 5s, tỷ lệ mục tiêu	Chủ thể rõ, một hành động, một chuyển động máy quay
Vòng lặp quảng cáo sản phẩm trên social	Image to Video	Ảnh sản phẩm, `1080p` bản cuối	Giữ nguyên sản phẩm, thêm sương/quét sáng/đẩy máy chậm
Nhịp truyện nhân vật	Reference to Video	2-4 hình tham chiếu, 5-8s	Ánh xạ character1, character2, địa điểm/phong cách
Thử nghiệm thoại hoặc âm thanh môi trường	Text or Reference	Bật audio, 5-8s	Viết trực tiếp câu thoại hoặc nền âm thanh
Tính nhất quán chiến dịch	Reference to Video	Cùng bộ tham chiếu qua nhiều lần thử	Giữ vai trò tham chiếu ổn định, thay đổi hành động cảnh

FAQ

Chế độ Happy Horse 1.1 nào là tốt nhất để bắt đầu?

Hãy bắt đầu với text-to-video nếu bạn chỉ có ý tưởng, image-to-video nếu bạn đã có một ảnh tĩnh hoàn chỉnh, và reference-to-video nếu nhận diện, hình dạng sản phẩm, trang phục hoặc tính nhất quán phong cách là quan trọng.

Happy Horse 1.1 có hỗ trợ image-to-video không?

Có. Happy Horse 1.1 hỗ trợ image-to-video trên trang chuyên biệt Image to Video. Tải lên một khung hình đầu tiên, sau đó dùng motion prompt để mô tả chuyển động máy quay và chuyển động của cảnh.

Tôi có thể dùng bao nhiêu hình tham chiếu?

Quy trình reference-to-video của Happy Horse 1.1 hỗ trợ tối đa 9 hình tham chiếu. Hãy dùng nhãn vai trò rõ ràng như character1, character2 hoặc image3 trong prompt để model biết mỗi hình tham chiếu kiểm soát điều gì.

Tôi nên dùng 720p hay 1080p?

Dùng 720p để thử prompt nhanh hơn và 1080p khi bạn đã sẵn sàng hoàn thiện một hướng mạnh. Độ phân giải không sửa được prompt yếu, vì vậy hãy lặp trên cấu trúc cảnh trước khi chi thêm cho chất lượng cuối.

Happy Horse 1.1 có thay thế chỉnh sửa video không?

Chưa phải với mọi quy trình. Happy Horse 1.1 là mặc định cho text-to-video, image-to-video và reference-to-video. Nếu bạn cần chỉnh sửa một video có sẵn, hãy dùng quy trình video-edit hiện tại cho đến khi hỗ trợ chỉnh sửa 1.1 trở thành một phần của luồng trình tạo công khai.

Thử ba trang Happy Horse 1.1

Bước tiếp theo dễ nhất là mở trang phù hợp với tài nguyên khởi đầu của bạn:

Nếu bạn vẫn đang cân nhắc model đã thay đổi gì, hãy bắt đầu với hướng dẫn phát hành Happy Horse 1.1, rồi quay lại đây và thử ba quy trình song song với nhau.