Scale AI Illustrations As CEO Says US Risks Losing AI 'Ammunition' Edge to China

(SeaPRwire) –   Trên , , và những nơi khác, các bài đăng xuất hiện từ người dùng tuyên bố họ đang kiếm được 20 đô la mỗi giờ – hoặc hơn – bằng cách hoàn thành các nhiệm vụ nhỏ trong thời gian rảnh rỗi của họ trên các trang web như DataAnnotation.tech, Taskup.ai, Remotasks và Amazon Mechanical Turk.

Khi các công ty ồ ạt xây dựng các mô hình AI, nhu cầu về công việc “Chú thích dữ liệu” và “Nhãn dữ liệu” ngày càng tăng. Những công nhân hoàn thành các nhiệm vụ như viết và lập trình, sau đó các công ty công nghệ sẽ sử dụng để phát triển các hệ thống trí tuệ nhân tạo, được đào tạo bằng cách sử dụng số lượng lớn các điểm dữ liệu ví dụ. Một số mô hình yêu cầu tất cả dữ liệu đầu vào của chúng phải được gắn nhãn bởi con người, một kỹ thuật được gọi là “học có giám sát”. Và trong khi “học không có giám sát”, trong đó các mô hình AI được cung cấp dữ liệu không có nhãn, ngày càng trở nên phổ biến, các hệ thống AI được đào tạo bằng cách sử dụng học không có giám sát vẫn thường yêu cầu một bước cuối cùng liên quan đến dữ liệu có nhãn do con người thực hiện.

Không có ước tính chính xác về số lượng người tham gia vào công việc chú thích dữ liệu. Một Google nghiên cứu năm 2022 ước tính con số lên đến hàng triệu và trong tương lai có thể lên đến hàng tỷ. Một năm 2021 ước tính rằng 163 triệu người đã lập hồ sơ trên các nền tảng lao động trực tuyến, 14 triệu trong số đó đã có được công việc thông qua nền tảng ít nhất một lần và 3,3 triệu người đã hoàn thành ít nhất 10 dự án hoặc kiếm được ít nhất 1.000 đô la. (Mặc dù con số này có khả năng là ước tính quá cao đối với chú thích dữ liệu, vì không phải tất cả công việc được thực hiện trên các nền tảng lao động trực tuyến đều là công việc chú thích dữ liệu.)

Các trang web chú thích dữ liệu, thường là công ty con của các công ty lớn hơn, có thể cung cấp các con đường hợp pháp để kiếm tiền. Khi ngành công nghiệp AI tiếp tục phát triển, nhu cầu về người ghi nhãn con người cũng tăng theo. Nhưng những người dùng tiềm năng nên lưu ý rằng ngành công nghiệp gắn nhãn dữ liệu được quản lý kém và do ngành công nghiệp này không minh bạch, nên có thể khó để điều hướng. Dưới đây là thông tin cần biết.

Làm sao để bắt đầu công việc chú thích dữ liệu?

Để đủ điều kiện tham gia các chương trình, những công nhân trước tiên phải hoàn thành một bài đánh giá. Thời gian của bài đánh giá ban đầu có thể khác nhau, nhưng người dùng thường báo cáo thời gian ngắn nhất là một giờ và dài nhất là ba giờ. Nếu người dùng vượt qua bài đánh giá, họ sẽ bắt đầu nhận được lời mời làm việc có lương thông qua trang web. Nếu người dùng không được chấp nhận vào chương trình, họ thường không nghe thấy gì sau khi hoàn thành bài đánh giá. 

Các nhiệm vụ trong bài đánh giá có thể khác nhau về bản chất. Sonam Jindal, người đứng đầu chương trình AI, Lao động và Kinh tế tại Liên minh Đối tác về AI, một tổ chức phi lợi nhuận cho biết, có xu hướng hướng tới công việc chú thích dữ liệu có tay nghề cao hơn. “Chúng ta sẽ bắt đầu thấy rằng khi bạn có nhu cầu có các mô hình AI chất lượng cao hơn, bạn cũng cần dữ liệu chất lượng cao hơn”, cô nói. “Chúng ta có thể tìm ra thứ gì đó là một con mèo hay một con chó, thật tuyệt. Chuyển sang các nhiệm vụ tiên tiến hơn — để có AI tiên tiến hơn có thể hữu ích hơn trong các tình huống thực tế chuyên biệt hơn — bạn sẽ cần nhiều bộ kỹ năng chuyên biệt hơn cho điều đó”.

Công việc được trả công như thế nào? 

Ở Hoa Kỳ, các trang web thường cung cấp khoảng 20 đô la một giờ cho các nhiệm vụ như gắn nhãn ảnh và hoàn thành các bài tập viết. Công việc chú thích dữ liệu chuyên biệt hơn có thể cung cấp mức lương cao hơn. Ví dụ: DataAnnotation.tech cung cấp 40 đô la cho các nhiệm vụ lập trình và Outlier.ai cung cấp 60 đô la mỗi giờ cho các nhiệm vụ hóa học.

Ngoài Hoa Kỳ, những người gắn nhãn dữ liệu thường được trả lương thấp hơn rất nhiều, Jindal nói. Nhưng mặc dù giá cao hơn, vẫn có lý do khiến các công ty có thể thích những công nhân có trụ sở tại Hoa Kỳ, chẳng hạn như những nhiệm vụ đòi hỏi kiến ​​thức văn hóa hoặc kỹ năng cụ thể phổ biến ở Hoa Kỳ. 

Trải nghiệm của mọi người như thế nào? 

Trên , người dùng báo cáo nhiều trải nghiệm khác nhau với công việc chú thích dữ liệu. Nhiều người mô tả những trải nghiệm tích cực — quá trình gia nhập đơn giản, nguồn cung cấp nhiều nhiệm vụ và mức lương tốt.

“Tôi đã làm việc tại [DataAnnotation.Tech] trong gần 2 năm,” một người dùng . “Bạn kiếm tiền theo nhiệm vụ hoặc theo giờ, tùy thuộc vào dự án. Họ trả tiền qua PayPal. Trong một vài năm trở lại đây, tôi chỉ làm việc bán thời gian và sắp đạt đến mức 3k đô la. Thành thật mà nói, tôi đã nghỉ việc trong một thời gian dài trong công việc toàn thời gian của mình, nhưng giờ tôi đã trở lại với công việc. Tôi hiện đang làm việc cho hai dự án, một là 20 đô la một giờ và một là 25 đô la một giờ. Tôi kiếm được khoảng 400–500 đô la một tuần. Điều này không phải là vĩnh viễn, vì các nhiệm vụ đến và đi, nhưng đây là một khoản thu nhập phụ tuyệt vời để thực hiện nếu bạn cần thêm việc từ máy tính xách tay hoặc máy tính”.

Nhưng một số người lại báo cáo những trải nghiệm ít tích cực hơn, chẳng hạn như được cho biết là họ đã vượt qua bài đánh giá nhưng sau đó không được giao bất kỳ nhiệm vụ nào. Đáng lo ngại hơn, một số người dùng báo cáo rằng tài khoản của họ đã bị hủy kích hoạt mặc dù họ vẫn chưa được trả hàng nghìn đô la tiền công. Một người dùng rằng tài khoản của họ đã bị hủy kích hoạt với số tiền công việc chưa được trả là 2.869 đô la và họ đã gửi email đến các liên hệ hỗ trợ của công ty nhưng không nhận được hồi âm.

Các trang web chú thích dữ liệu thường sử dụng quản lý theo thuật toán để giữ chi phí thấp, điều này có thể dẫn đến việc đối xử tệ bạc mà nhiều công nhân gặp phải, Milagros Miceli, người đứng đầu nhóm nghiên cứu Dữ liệu, Hệ thống thuật toán và Đạo đức tại Viện Weizenbaum ở Berlin cho biết. Và vì ngành công nghiệp chú thích dữ liệu được quản lý kém nên các công ty hiếm khi phải đối mặt với hậu quả vì đối xử kém với người lao động, cô cho biết thêm.

Bài viết được cung cấp bởi nhà cung cấp nội dung bên thứ ba. SeaPRwire (https://www.seaprwire.com/) không đưa ra bảo đảm hoặc tuyên bố liên quan đến điều đó.

Lĩnh vực: Tin nổi bật, Tin tức hàng ngày

SeaPRwire cung cấp phát hành thông cáo báo chí thời gian thực cho các công ty và tổ chức, tiếp cận hơn 6.500 cửa hàng truyền thông, 86.000 biên tập viên và nhà báo, và 3,5 triệu máy tính để bàn chuyên nghiệp tại 90 quốc gia. SeaPRwire hỗ trợ phân phối thông cáo báo chí bằng tiếng Anh, tiếng Hàn, tiếng Nhật, tiếng Ả Rập, tiếng Trung Giản thể, tiếng Trung Truyền thống, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai, tiếng Đức, tiếng Nga, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và các ngôn ngữ khác. 

Amazon.com Illustrations Ahead Of Earnings Figures

Dữ liệu được sử dụng để làm gì?

Một số công ty, chẳng hạn như Amazon Mechanical Turk và Upwork, hoạt động một cách khá minh bạch, với cùng một thương hiệu cho cả người mua lao động chú thích dữ liệu và cho công nhân. Nhưng những người khác thì không. Remotasks là công ty con về phía công nhân của nhà cung cấp nhãn dữ liệu Scale AI, một doanh nghiệp