1. Đăng ký và truy cập FPT.AI Speech Bước 1: Truy cập trang chủ FPT.AI tại fpt.ai hoặc trực tiếp vào mục Speech tại fpt.ai/vi/tts (cho ...
1. Đăng ký và truy cập FPT.AI Speech
- Bước 1: Truy cập trang chủ FPT.AI tại fpt.ai hoặc trực tiếp vào mục Speech tại fpt.ai/vi/tts (cho TTS) hoặc fpt.ai/vi/stt (cho STT).
- Bước 2: Nhấp vào "Đăng ký" hoặc "Dùng thử miễn phí":
- Đăng ký bằng email: Nhập email, tạo mật khẩu, rồi nhấn "Create Account".
- Hoặc dùng tài khoản Google để đăng ký nhanh.
- Bước 3: Đăng nhập sau khi xác minh email (nếu cần).
- Lưu ý:
- Gói miễn phí: Cung cấp 100.000 ký tự/tháng cho TTS và 60 phút âm thanh/tháng cho STT, không watermark âm thanh.
- Gói trả phí: Bắt đầu từ khoảng 200.000 VNĐ/tháng (tùy gói), mở khóa ký tự/giờ không giới hạn, giọng cao cấp (AceSound), và API tích hợp.
2. Sử dụng Text-to-Speech (TTS) – Chuyển văn bản thành giọng nói
- Bước 1: Từ giao diện FPT.AI, chọn "Text to Speech" hoặc vào voicemaker.fpt.ai.
- Bước 2: Nhập văn bản:
- Ví dụ: "Chào mừng bạn đến với FPT.AI, giải pháp AI tối ưu cho doanh nghiệp Việt Nam."
- Dán văn bản hoặc tải file (txt, docx) nếu cần.
- Bước 3: Chọn giọng đọc:
- Hỗ trợ hơn 100 giọng nói:
- Tiếng Việt: Giọng nam/nữ (Bắc, Trung, Nam) như Ban Mai (Bắc nữ), Minh Quang (Nam nam), Thu Minh (Bắc nữ).
- Đa ngôn ngữ: Tiếng Anh, Nhật, Trung, v.v.
- Nghe thử bằng nút "Play".
- Hỗ trợ hơn 100 giọng nói:
- Bước 4: Tùy chỉnh:
- Tốc độ (Speed): 0.5x (chậm) đến 2.0x (nhanh).
- Cao độ (Pitch): Trầm hoặc bổng.
- Cảm xúc: Vui, buồn, nghiêm túc (giọng AceSound, gói Pro).
- Bước 5: Nhấn "Convert" hoặc "Generate" để tạo âm thanh, sau đó nghe thử và tải xuống (MP3/WAV).
3. Sử dụng Speech-to-Text (STT) – Chuyển giọng nói thành văn bản
- Bước 1: Từ giao diện FPT.AI, chọn "Speech to Text" hoặc vào console.fpt.ai.
- Bước 2: Tải lên âm thanh hoặc ghi âm trực tiếp:
- Tải file âm thanh (MP3, WAV) từ máy tính.
- Hoặc dùng micro để ghi âm trực tiếp qua trình duyệt.
- Bước 3: Chọn ngôn ngữ:
- Hỗ trợ tiếng Việt (nhận diện giọng Bắc, Trung, Nam) và nhiều ngôn ngữ khác.
- Bước 4: Nhấn "Convert":
- Sau 5-30 giây (tùy độ dài âm thanh), văn bản được hiển thị với dấu câu tự động.
- Bước 5: Kiểm tra và chỉnh sửa:
- Sao chép văn bản hoặc tải xuống dưới dạng txt.
4. Tùy chỉnh nâng cao và tích hợp API
- TTS:
- SSML: Dùng cú pháp như <break time="1s"/> để thêm khoảng dừng (gói Pro).
- Từ điển cá nhân: Tùy chỉnh cách đọc từ viết tắt hoặc tên riêng (ví dụ: "FPT" đọc là "ép pi ti").
- STT:
- Nhận diện ngữ cảnh: Tự động định dạng ngày tháng, số điện thoại, tên riêng.
- Cải thiện theo thời gian nhờ machine learning.
- API:
- Đăng ký API key tại console.fpt.ai.
- Tích hợp vào ứng dụng qua tài liệu tại docs.fpt.ai.
- Ví dụ: Gọi API TTS để đọc thông báo trong app, hoặc STT để chuyển đổi cuộc gọi thành văn bản.
5. Xuất và sử dụng kết quả
- TTS:
- Tải file MP3/WAV:
- Gói miễn phí: Chất lượng 16kHz.
- Gói Pro: Lên đến 48kHz.
- Dùng cho video, sách nói, tổng đài tự động, hoặc trợ lý ảo.
- Tải file MP3/WAV:
- STT:
- Sao chép văn bản hoặc tải file txt.
- Dùng để ghi chú, phân tích cuộc gọi, hoặc tạo phụ đề.
- Lưu ý: Kết quả được lưu trong "History" trên tài khoản để truy cập lại.
Mẹo sử dụng FPT.AI Speech hiệu quả
- Prompt rõ ràng: Với TTS, viết câu ngắn, tránh từ phức tạp để giọng mượt hơn. Với STT, đảm bảo âm thanh rõ, không lẫn tạp âm.
- Chọn giọng phù hợp: Giọng Ban Mai (Bắc nữ) rất phổ biến cho video TikTok, trong khi Minh Quang (Nam nam) phù hợp với thông báo chính thức.
- Tận dụng miễn phí: 100.000 ký tự/tháng (TTS) đủ để tạo 10-15 phút âm thanh; 60 phút (STT) đủ để thử nghiệm.
- Kết hợp công cụ: Dùng TTS với CapCut để lồng tiếng video, hoặc STT với CRM để phân tích cuộc gọi.
- API cho doanh nghiệp: Tích hợp vào tổng đài (như FPT.AI Virtual Agent) để tự động hóa dịch vụ khách hàng.
Ưu và nhược điểm của FPT.AI Speech
- Ưu điểm:
- Giọng tiếng Việt tự nhiên, đa dạng vùng miền (Bắc, Trung, Nam).
- Miễn phí cơ bản, không watermark, dễ tích hợp qua API.
- Hiệu suất cao, được tối ưu cho thị trường Việt Nam.
- Nhược điểm:
- Gói miễn phí giới hạn ký tự/thời gian.
- Một số giọng đa ngôn ngữ chưa mượt bằng tiếng Việt.
- Không tạo video trực tiếp, chỉ tập trung vào âm thanh.
Kết luận
FPT.AI Speech là giải pháp AI hàng đầu tại Việt Nam, mang đến khả năng chuyển đổi văn bản-giọng nói và ngược lại với chất lượng cao, đặc biệt tối ưu cho tiếng Việt. Với tính năng TTS và STT, nó phục vụ tốt cho cá nhân, doanh nghiệp, và lập trình viên trong các ứng dụng thực tế.