Hướng Dẫn Cài Đặt Whisper Trên Ubuntu Server

Hướng dẫn, Định nghĩa

Học cách cài đặt Whisper trên Ubuntu với hướng dẫn đơn giản này. Khám phá khả năng chuyển đổi giọng nói thành văn bản mạnh mẽ của Whisper ngay hôm nay!

Whisper Là Gì?

Whisper là một mô hình nhận dạng giọng nói đa năng. Nó được huấn luyện trên một bộ dữ liệu âm thanh lớn và đa dạng, và là một mô hình đa nhiệm có thể thực hiện nhận dạng giọng nói đa ngôn ngữ, dịch giọng nói, và nhận diện ngôn ngữ.

Mô hình Whisper là một mô hình Transformer theo chuỗi tới chuỗi, được huấn luyện trên nhiều tác vụ xử lý giọng nói khác nhau, bao gồm nhận dạng giọng nói đa ngôn ngữ, dịch giọng nói, nhận diện ngôn ngữ nói, và phát hiện hoạt động giọng nói. Những tác vụ này được đại diện như một chuỗi các token để được dự đoán bởi bộ giải mã, cho phép một mô hình duy nhất thay thế nhiều giai đoạn của chuỗi xử lý giọng nói truyền thống. Định dạng huấn luyện đa nhiệm sử dụng một bộ token đặc biệt đóng vai trò như các chỉ thị tác vụ hoặc mục tiêu phân loại.

Thiết Lập Môi Trường

  • Máy chủ GPU chuyên dụng P40, hệ điều hành Ubuntu 22.04

Các Mô Hình và Ngôn Ngữ Có Sẵn

Whisper có năm kích thước mô hình, trong đó bốn mô hình chỉ có phiên bản tiếng Anh, cung cấp sự cân bằng giữa tốc độ và độ chính xác. Dưới đây là tên của các mô hình có sẵn và yêu cầu bộ nhớ ước tính của chúng cùng tốc độ suy luận so với mô hình lớn; tốc độ thực tế có thể thay đổi tùy thuộc vào nhiều yếu tố bao gồm phần cứng có sẵn.

Các mô hình Whisper phiên bản .en chỉ dành cho tiếng Anh thường cho kết quả tốt hơn, đặc biệt với các mô hình tiny.en và base.en. Chênh lệch này ít rõ ràng hơn với các mô hình small.en và medium.en.

Cách Cài Đặt Whisper Trên Ubuntu Server

Bước 1 – Cài Đặt Driver GPU

Tham khảo hướng dẫn cài đặt tại: NVIDIA Driver Installation on Ubuntu

Bước 2 – Cài Đặt pip3

Cài đặt pip3 bằng lệnh sau:

apt install python3-pip

Bước 3 – Cài Đặt Whisper

Sử dụng lệnh sau để cài đặt Whisper:

pip install -U openai-whisper

Hoặc bạn cũng có thể cài đặt từ GitHub:

pip install git+https://github.com/openai/whisper.git

Bước 4 – Cài Đặt ffmpeg

Whisper yêu cầu các công cụ dòng lệnh ffmpeg để hoạt động, có thể được cung cấp bởi hầu hết các trình quản lý gói. Sử dụng lệnh sau để cài đặt:

sudo apt update && sudo apt install ffmpeg

Cách Sử Dụng Whisper

Sau khi cài đặt xong, bạn có thể bắt đầu chuyển đổi giọng nói thành văn bản với Whisper.

Sử Dụng Python

1. Tạo Tệp Dịch

Tạo tệp Python để sử dụng Whisper, ví dụ whisper_01.py bằng trình chỉnh sửa như vim:

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

Hãy thay thế audio.mp3 bằng tên tệp âm thanh của bạn. Bạn có thể tải tài nguyên âm thanh trực tuyến hoặc tự ghi âm.

2. Chạy Tệp Python

Sử dụng lệnh sau để chạy tệp Python:

python3 whisper_01.py

Kết quả sẽ hiển thị văn bản được chuyển đổi từ tệp âm thanh.

Sử Dụng Dòng Lệnh

Bạn cũng có thể sử dụng Whisper trực tiếp từ dòng lệnh để chuyển đổi giọng nói thành văn bản. Lệnh sau sẽ chuyển đổi giọng nói trong các tệp âm thanh sử dụng mô hình medium:

whisper audio.flac audio.mp3 audio.wav --model medium

Cài đặt mặc định (sử dụng mô hình small) hoạt động tốt cho việc chuyển đổi tiếng Anh. Để chuyển đổi tệp âm thanh chứa giọng nói không phải tiếng Anh, bạn có thể chỉ định ngôn ngữ bằng tùy chọn --language:

whisper japanese.wav --language Japanese

Thêm --task translate để dịch giọng nói sang tiếng Anh:

whisper japanese.wav --language Japanese --task translate

Chạy lệnh sau để xem tất cả các tùy chọn có sẵn:

whisper --help

Kết Luận

Trong bài viết này, chúng ta đã tìm hiểu cách cài đặt Whisper trên Ubuntu Server và cách sử dụng nó để chuyển đổi giọng nói thành văn bản. Whisper là một công cụ mạnh mẽ, hỗ trợ nhiều tác vụ như nhận dạng giọng nói đa ngôn ngữ, dịch giọng nói, và nhận diện ngôn ngữ. Bạn có thể áp dụng Whisper vào nhiều ứng dụng khác nhau để tự động hóa việc chuyển đổi giọng nói, giúp tiết kiệm thời gian và nâng cao hiệu quả công việc. Để biết thêm thông tin, bạn có thể tham khảo tài liệu chính thức của Whisper và OpenAI.

Hãy tiếp tục xem thêm các bài viết khác của chúng tôi tại ThueGPU.vn hoặc Fanpage. Nếu có nhu cầu Thuê máy chủ GPU, CLOUD GPU hãy liên hệ với chúng tôi.

CÔNG TY TNHH CÔNG NGHỆ EZ

  • VP HCM: 211 Đường số 5, Lake View City, An Phú, Thủ Đức.
  • Tel: 0877223579
  • Email: [email protected]
5/5 - (182 bình chọn)