module 2 Data responsibility viet coursera.pdf

AgamaAgama 7 views 13 slides Oct 31, 2024
Slide 1
Slide 1 of 13
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13

About This Presentation

data s vvsv sdf


Slide Content

Định nghĩa đạo đức dữ liệu và quyền riêng tư dữ liệu.
Giải thích những gì liên quan đến việc xem xét dữ liệu để xác định sự thiên vị.
A. Dữ liệu khách quan và không thiên vị
Thể hiện nhận thức về các vấn đề về khả năng tiếp cận liên quan đến dữ liệu mở.
Mục tiêu học tập
Xác định các loại thành kiến khác nhau bao gồm thành kiến xác nhận, thành kiến diễn giải và thành kiến của người quan sát.
Chào mừng trở lại. Trong khóa học trước, chúng ta đã nói về cách chuẩn bị dữ liệu theo cách giúp bạn kể một câu chuyện có ý
nghĩa. Bây giờ, hãy cùng tìm hiểu những gì sẽ diễn ra tiếp theo. Giống như mọi câu chuyện hay, câu chuyện dữ liệu của bạn
sẽ chứa đầy các nhân vật, câu hỏi, thử thách, xung đột và hy vọng là có giải pháp. Bí quyết là tránh xung đột, vượt qua
thử thách và trả lời các câu hỏi. Đó chính là mục đích của khóa học này. Sau đây là cách chúng ta sẽ thực hiện. Đầu
tiên, bạn sẽ học cách phân tích dữ liệu để tìm ra sự thiên vị và độ tin cậy. Điều này rất quan trọng vì ngay cả dữ liệu hợp lý
nhất cũng có thể bị bóp méo hoặc hiểu sai. Sau đó, chúng ta sẽ tìm hiểu về tầm quan trọng của việc tốt và xấu. Vâng, giống
như khi chúng ta còn nhỏ. Nhưng trong trường hợp này, chúng ta sẽ khám phá các nguồn dữ liệu tốt và học cách tránh xa kẻ
thù của chúng, dữ liệu xấu. Sau đó, chúng ta sẽ tìm hiểu thêm về thế giới đạo đức dữ liệu, quyền riêng tư và quyền truy
cập. Khi ngày càng có nhiều dữ liệu khả dụng và các thuật toán chúng ta tạo ra để sử dụng dữ liệu này trở nên phức tạp và tinh vi
hơn, các vấn đề mới liên tục xuất hiện. Chúng ta cần đặt ra những câu hỏi như, ai sở hữu tất cả dữ liệu này? Chúng
ta có bao nhiêu quyền kiểm soát đối với quyền riêng tư của dữ liệu? Chúng ta có thể sử dụng và tái sử dụng dữ
liệu theo bất kỳ cách nào chúng ta muốn không? Là một nhà phân tích dữ liệu, điều quan trọng là phải hiểu về đạo đức dữ liệu và
quyền riêng tư vì trong công việc của mình, bạn sẽ đưa ra nhiều phán đoán về việc sử dụng và ứng dụng dữ liệu đúng cách.
Tôi rất vui được hướng dẫn bạn qua một số câu hỏi, câu trả lời, rủi ro và phần thưởng liên quan. Chúng ta hãy cùng mở chương
đầu tiên của câu chuyện dữ liệu này trong video tiếp theo của chúng tôi.
1. Giới thiệu về sự thiên vị, uy tín, quyền riêng tư và đạo đức
Thảo luận về sự khác biệt giữa dữ liệu có thiên vị và không thiên vị.
Giải thích khái niệm dữ liệu mở liên quan đến cuộc tranh luận đang diễn ra trong phân tích dữ liệu.
Thảo luận về đặc điểm của các nguồn dữ liệu đáng tin cậy bao gồm cả việc tham chiếu đến dữ liệu không rõ ràng.
2. Sự thiên vị: Từ câu hỏi đến kết luận
Trước khi làm việc với dữ liệu, bạn phải xác nhận rằng dữ liệu đó không thiên vị và đáng tin cậy. Xét cho cùng, nếu bạn bắt đầu phân
tích bằng dữ liệu không đáng tin cậy, bạn sẽ không thể tin tưởng vào kết quả của mình. Trong phần này của khóa học, bạn sẽ học cách xác định sự
thiên vị trong dữ liệu và đảm bảo dữ liệu của bạn đáng tin cậy. Bạn cũng sẽ khám phá dữ liệu mở và tầm quan trọng của đạo đức dữ liệu và quyền
riêng tư dữ liệu.
Thể hiện sự hiểu biết về lợi ích của việc ẩn danh dữ liệu.
Trách nhiệm dữ liệu
Giải thích mối quan hệ giữa đạo đức dữ liệu và quyền riêng tư dữ liệu.
Machine Translated by Google

3. Dữ liệu thiên vị và không thiên vị
Xin chào lần nữa. Cho đến nay, chúng ta đã biết rằng những thành kiến mà chúng ta có với tư cách là con người
có thể dẫn đến việc tạo ra dữ liệu thiên vị, chúng ta thiên vị khi chúng ta có sở thích dựa trên những quan niệm có
sẵn hoặc thậm chí là tiềm thức của riêng mình. Khi dữ liệu bị thiên vị, nó có thể làm lệch kết quả theo một hướng
nhất định, khiến chúng không đáng tin cậy. Chúng ta đã đề cập đến điều này trước đó bằng cách sử dụng thiên
vị lấy mẫu làm ví dụ. Thiên vị lấy mẫu là khi một mẫu không đại diện cho toàn bộ dân số.
Làm sao mà công bằng được!? Liệu anh ta có thể thực sự được mong đợi chọn người chiến thắng một cách công bằng khi
chính thành viên gia đình anh ta là một trong những thí sinh không? Có lẽ anh ta đã thiên vị! Có thể cháu gái anh
ta xứng đáng chiến thắng hoặc có thể không. Nhưng vấn đề là: rất dễ để đưa ra lập luận cho sự thiên vị trong tình
huống đó. Đây là một ví dụ cực kỳ đơn giản, nhưng sự thật là chúng ta luôn gặp phải sự thiên vị trong cuộc sống
hàng ngày. Bộ não của chúng ta được thiết kế sinh học để hợp lý hóa suy nghĩ và đưa ra những phán đoán nhanh chóng.
Sự thiên vị đã phát triển thành sở thích ủng hộ hoặc chống lại một người, một nhóm người hoặc một thứ gì đó. Nó có
thể là có ý thức hoặc vô thức. Tin tốt là khi chúng ta biết và chấp nhận rằng mình có sự thiên vị, chúng ta có thể
bắt đầu nhận ra các kiểu suy nghĩ của riêng mình và học cách quản lý nó. Điều quan trọng là phải biết rằng sự thiên
vị cũng có thể tìm đường vào thế giới dữ liệu. Sự thiên vị dữ liệu là một loại lỗi có hệ thống làm lệch kết quả theo
một hướng nhất định. Có thể các câu hỏi trong một cuộc khảo sát có xu hướng cụ thể ảnh hưởng đến câu trả lời hoặc có
thể nhóm mẫu không thực sự đại diện cho nhóm dân số đang được nghiên cứu. Ví dụ, nếu bạn lấy độ tuổi
trung bình của nhóm bệnh nhân Hoa Kỳ có bảo hiểm y tế, bạn sẽ không chỉ sử dụng mẫu bệnh nhân Medicare từ 65
tuổi trở lên. Sự thiên vị cũng có thể xảy ra nếu nhóm mẫu thiếu tính bao hàm. Ví dụ, những người khuyết tật
có xu hướng không được xác định, không được đại diện hoặc bị loại trừ trong nghiên cứu sức khỏe chính thống. Cách
bạn thu thập dữ liệu cũng có thể làm sai lệch một tập dữ liệu. Ví dụ, nếu bạn chỉ cho mọi người một thời gian
ngắn để trả lời câu hỏi, phản hồi của họ sẽ bị vội vàng. Khi chúng ta vội vàng, chúng ta mắc nhiều lỗi hơn, điều
này có thể ảnh hưởng đến chất lượng dữ liệu của chúng ta và tạo ra kết quả thiên vị. Là một nhà phân tích dữ liệu,
bạn phải nghĩ về sự thiên vị và tính công bằng ngay từ khi bạn bắt đầu thu thập dữ liệu cho đến khi bạn trình bày kết
luận của mình. Rốt cuộc, những kết luận đó có thể có những tác động nghiêm trọng. Hãy nghĩ về điều này: người ta
đã thừa nhận rằng các nghiên cứu lâm sàng về sức khỏe tim mạch có xu hướng bao gồm nhiều nam giới hơn nữ giới.
Điều này dẫn đến việc phụ nữ không nhận ra các triệu chứng và cuối cùng tình trạng tim của họ không được phát hiện và
điều trị. Đó chỉ là một trong những cách mà sự thiên vị có thể có tác động rất thực tế. Mặc dù chúng ta đã đi một
chặng đường dài trong việc nhận ra sự thiên vị, nhưng nó vẫn khiến bạn thua cháu gái của thẩm phán tại cuộc thi
khoa học đó. Nó vẫn đang ảnh hưởng đến các quyết định kinh doanh, lựa chọn và khả năng tiếp cận chăm sóc sức khỏe,
hành động của chính phủ, v.v. Vì vậy, chúng ta vẫn còn nhiều việc phải làm. Tiếp theo, chúng tôi sẽ chỉ cho bạn cách
xác định sự thiên vị trong chính dữ liệu và khám phá một số tình huống khi bạn thực sự có thể hưởng lợi từ nó.
Hãy bắt đầu bằng cách du hành ngược thời gian, ít nhất là trong tâm trí chúng ta. Cỗ máy thời gian thực sự của
tôi đang ở trong cửa hàng. Hãy tưởng tượng bạn đang ở trường trung học và bạn đã tham gia một dự án cho hội chợ khoa
học. Bạn đã làm việc chăm chỉ trong nhiều tuần để hoàn thiện mọi yếu tố và họ sắp công bố những người chiến thắng.
Bạn nhắm mắt lại, hít một hơi thật sâu và bạn nghe thấy họ gọi tên bạn cho vị trí thứ hai. Thật tệ, bạn thực sự muốn
chiếc cúp vô địch, nhưng này, bạn sẽ nhận giải thưởng để được công nhận. Ngày hôm sau, bạn biết rằng giám khảo
là chú của người chiến thắng.
Bạn có thể tránh điều này bằng cách đảm bảo mẫu được chọn ngẫu nhiên, để tất cả các bộ phận của dân số có cơ hội
được đưa vào như nhau. Nếu bạn không sử dụng lấy mẫu ngẫu nhiên trong
Machine Translated by Google

Tôi có thể thiên vị, nhưng tôi nghĩ việc tìm hiểu về những đặc điểm tốt và xấu của dữ liệu khá hấp dẫn. Tiếp theo, chúng ta
sẽ khám phá ra rằng có rất nhiều loại thiên vị dữ liệu khác nhau, ngoài thiên vị lấy mẫu mà chúng ta đã đề cập trước đó.
Để ôn lại nhanh, sai lệch lấy mẫu là khi mẫu không đại diện cho toàn bộ dân số. Ví dụ, nếu bạn đang nghiên cứu về những người đi làm
và chỉ khảo sát những người đi bộ trên vỉa hè, bạn sẽ bỏ lỡ thông tin đầu vào từ những người đi xe đạp, lái xe hoặc đi
tàu điện ngầm. Bạn cần tất cả các khía cạnh của câu chuyện để tránh sai lệch lấy mẫu. Trong video này, chúng ta sẽ khám phá thêm ba
loại sai lệch dữ liệu, sai lệch quan sát, sai lệch diễn giải và sai lệch xác nhận, và chúng ta sẽ tìm hiểu cách tránh chúng. Hãy
bắt đầu với sai lệch quan sát, đôi khi được gọi là sai lệch của người thử nghiệm hoặc sai lệch nghiên cứu. Về cơ bản, đó là
xu hướng những người khác nhau quan sát mọi thứ khác nhau. Bạn có thể nhớ trước đó, chúng ta đã học rằng các nhà khoa học sử
dụng nhiều quan sát trong công việc của họ, chẳng hạn như khi họ quan sát vi khuẩn dưới kính hiển vi để thu thập dữ liệu. Mặc
dù hai nhà khoa học nhìn vào cùng một kính hiển vi có thể nhìn thấy những thứ khác nhau, nhưng đó là sai lệch quan sát. Một
trường hợp khác có thể xảy ra sai lệch quan sát là trong quá trình đo huyết áp thủ công. Vì máy đo huyết áp rất nhạy nên nhân viên
chăm sóc sức khỏe thường nhận được kết quả khá khác nhau. Thông thường, họ chỉ làm tròn lên số nguyên gần nhất để bù cho biên
độ sai số. Nhưng nếu bác sĩ liên tục làm tròn lên hoặc làm tròn xuống các chỉ số huyết áp của bệnh nhân, tình trạng sức khỏe có thể
bị bỏ sót và bất kỳ nghiên cứu nào liên quan đến bệnh nhân của họ sẽ không có dữ liệu chính xác và đúng đắn. Một loại sai lệch dữ
liệu phổ biến khác là sai lệch diễn giải. Xu hướng luôn diễn giải các tình huống mơ hồ theo cách tích cực hoặc tiêu
cực. Đây là một ví dụ. Giả sử bạn đang ăn trưa với một đồng nghiệp, khi bạn nhận được thư thoại từ sếp, yêu cầu bạn gọi lại cho
cô ấy. Bạn bực bội cúp máy, chắc chắn rằng cô ấy đang tức giận và bạn đang phải chịu trách nhiệm về một điều gì đó.
Nhưng khi bạn phát tin nhắn cho bạn mình, anh ấy không nghe thấy sự tức giận nào cả, anh ấy thực sự nghĩ rằng cô ấy có vẻ bình
tĩnh và thẳng thắn. Sai lệch diễn giải có thể khiến hai người nhìn thấy hoặc
4. Hiểu được sự thiên vị trong dữ liệu
thu thập dữ liệu, cuối cùng bạn sẽ thiên vị một kết quả. Sau đây là một cách đơn giản để xem xét vấn đề này. Giả sử có 50 học sinh
trong một lớp và bạn muốn biết phần lớn lớp thích thời tiết ấm hay lạnh. bạn quyết định khảo sát 10 học sinh đầu tiên mà bạn gặp
và dựa trên phản hồi của họ, bạn xác định rằng toàn bộ lớp thích thời tiết ấm. Nhưng khoan đã, có một số thành kiến ở đây. 10
người đầu tiên đó đều là phụ nữ, vì vậy chỉ có phụ nữ được đưa vào khảo sát của bạn. Khảo sát của bạn không đại diện công bằng
cho toàn bộ lớp vì nó không bao gồm các định danh khác trên toàn bộ quang phổ giới tính. Nếu bạn sử dụng một mẫu ngẫu nhiên hơn của
dân số bao gồm tất cả các giới tính, bạn sẽ có một mẫu không thiên vị. Kết quả lấy mẫu không thiên vị trong một mẫu đại diện cho
dân số đang được đo lường. Một cách tuyệt vời khác để khám phá xem bạn có đang làm việc với dữ liệu không thiên vị hay không là
đưa kết quả vào cuộc sống bằng hình ảnh trực quan. Trong ví dụ về lớp học mà chúng ta vừa đề cập, bạn có thể hình dung tổng
số học sinh trong lớp và bản dạng giới tính của họ bằng biểu đồ thanh. Sau đó, bạn có thể so sánh với biểu đồ thanh tương tự hiển
thị những học sinh bạn đã khảo sát. Điều này sẽ giúp bạn dễ dàng xác định bất kỳ sự không phù hợp nào với mẫu của
mình. Được rồi, bây giờ chúng ta đã biết thiên vị trông như thế nào theo quan điểm lấy mẫu, hãy cùng khám phá một số loại
thiên vị khác và cách nhận biết chúng.
Machine Translated by Google

Hiện nay.
B. Đạt được độ tin cậy của dữ liệu
1. Xác định nguồn dữ liệu tốt
Điều này xảy ra thường xuyên trong cuộc sống hàng ngày. Chúng ta có thể lấy tin tức từ một trang web nào đó vì các tác
giả chia sẻ niềm tin của chúng ta, hoặc chúng ta giao lưu với mọi người vì chúng ta biết rằng họ có quan điểm tương tự.
Rốt cuộc, quan điểm xung đột có thể khiến chúng ta đặt câu hỏi về thế giới quan của mình, điều này có thể khiến
chúng ta thay đổi toàn bộ hệ thống niềm tin của mình và hãy đối mặt với nó, thay đổi là điều khó khăn. Nhưng bạn có biết
điều gì còn khó khăn hơn không? Làm việc tốt khi bạn có dữ liệu xấu, vì vậy điều quan trọng là phải tránh xa sự thiên vị.
Bốn loại thiên vị dữ liệu mà chúng ta đã đề cập, thiên vị lấy mẫu, thiên vị quan sát, thiên vị diễn giải và thiên vị xác
nhận, tất cả đều độc đáo, nhưng chúng có một điểm chung. Mỗi loại đều ảnh hưởng đến cách chúng ta thu thập và hiểu dữ liệu.
Thật không may, chúng cũng chỉ là một mẫu nhỏ, chơi chữ có chủ ý, về các loại thiên vị mà bạn có thể gặp phải trong sự
nghiệp của mình với tư cách là một nhà phân tích dữ liệu. Nhưng tin tốt là, một khi bạn biết một vài, bạn sẽ thấy mình liên
tục cảnh giác với thiên vị dưới mọi hình thức. Điều quan trọng nữa là phải nhớ rằng, bất kể bạn sử dụng loại dữ liệu nào,
tất cả dữ liệu đều cần được kiểm tra về độ chính xác và độ tin cậy. Chúng ta sẽ sớm nói thêm về điều đó khi
chúng ta bắt đầu khám phá dữ liệu xấu. Tạm biệt
Thêm những diễn giải này vào phân tích dữ liệu, và bạn có thể có được kết quả thiên vị. Loại thiên vị cuối cùng mà chúng ta
sẽ đề cập, nhắc tôi nhớ đến câu nói, mọi người nhìn thấy những gì họ muốn thấy. Câu đó tóm tắt khá đầy đủ về thiên vị
xác nhận. Thiên vị xác nhận là xu hướng tìm kiếm hoặc diễn giải thông tin theo cách xác nhận các niềm tin đã tồn tại từ
trước. Một người nào đó có thể rất háo hức xác nhận một trực giác, đến nỗi họ chỉ chú ý đến những thứ hỗ trợ cho nó, bỏ
qua mọi tín hiệu khác.
nghe cùng một điều, và diễn giải nó theo nhiều cách khác nhau, vì họ có hoàn cảnh và kinh nghiệm khác nhau. Lịch sử của
bạn với sếp khiến bạn diễn giải cuộc gọi theo một cách, trong khi bạn của bạn diễn giải nó theo một cách khác, vì họ là người
lạ.
Đó là những gì chúng ta sẽ thảo luận trong video này. Tôi nghĩ chúng ta đều đồng ý rằng chúng ta đều muốn có dữ liệu tốt.
Chúng ta càng có nhiều dữ liệu chất lượng cao, chúng ta càng có thể tự tin hơn vào quyết định của mình. Hãy cùng tìm hiểu
cách chúng ta có thể tìm và xác định các nguồn dữ liệu tốt. Trước tiên, chúng ta cần học cách xác định chúng. Một quy
trình mà tôi muốn gọi là ROCCC, ROCCC. Được rồi. Tôi vừa nghĩ ra điều đó, nhưng tôi nghĩ các từ viết tắt là một cách thực sự
tuyệt vời để giúp thông tin mới lưu lại trong não. Bắt đầu là R là đáng tin cậy. Giống như một người bạn tốt, các nguồn
dữ liệu tốt là đáng tin cậy. Với dữ liệu này, bạn có thể tin tưởng rằng mình đang nhận được thông tin chính xác,
đầy đủ và khách quan đã được kiểm tra và chứng minh là phù hợp để sử dụng. Được rồi. Onto O. O là bản gốc. Có nhiều
khả năng bạn sẽ khám phá ra dữ liệu thông qua nguồn của bên thứ hai hoặc thứ ba. Để đảm bảo bạn đang xử lý dữ liệu tốt, hãy
đảm bảo xác thực dữ liệu đó với nguồn gốc. Đã đến lúc C đầu tiên. C là toàn diện. Các nguồn dữ liệu tốt nhất chứa tất
cả thông tin quan trọng cần thiết để trả lời câu hỏi hoặc tìm ra giải pháp. Hãy nghĩ về nó như thế này. Bạn sẽ không
muốn làm việc cho một công ty chỉ vì bạn tìm thấy một đánh giá trực tuyến tuyệt vời về công ty đó. Bạn sẽ nghiên cứu mọi
khía cạnh của tổ chức để đảm bảo rằng đó là sự phù hợp. Điều quan trọng là phải làm như vậy
Này, cái gì tốt!? Không, thực sự, tôi muốn biết: Cái gì tốt? Để tôi nói theo cách này. Nếu tôi yêu cầu bạn nêu tên một
bài hát hay, tôi có thể không thích bài hát đó. Đó là vì hay là chủ quan. Những gì tôi nghĩ là hay và những gì bạn nghĩ là
hay có thể khác nhau. Vậy còn các nguồn dữ liệu tốt thì sao? Chúng cũng chủ quan chứ? Theo một số cách thì chúng
là chủ quan, nhưng may mắn thay, có một số phương pháp hay nhất cần tuân theo để giúp bạn đo lường độ tin cậy của
các tập dữ liệu trước khi sử dụng chúng.
Machine Translated by Google

2. Dữ liệu "xấu" là gì?
Chào mừng trở lại. Lần trước chúng ta gặp nhau, chúng ta đã học cách xác định và tìm nguồn dữ liệu tốt. Một
quy trình mà cuối cùng tôi đã đúc kết thành ROCCC. Chúng tôi thấy rằng nếu tập dữ liệu đáng tin cậy,
nguyên bản, toàn diện, hiện tại và được trích dẫn, thì nó là ROCCC (hay nghiêm túc hơn: nó tốt). Hy vọng điều
này sẽ làm mới lại trí nhớ của bạn. Bây giờ là lúc rút ra từ những gì chúng ta đã học về dữ liệu tốt và
áp dụng vào bài học hôm nay: các nguồn dữ liệu xấu không phải là ROCCC. Chúng không đáng tin cậy, nguyên
bản, toàn diện, hiện tại hoặc được trích dẫn. Tệ hơn nữa, chúng có thể hoàn toàn sai hoặc chứa đầy lỗi
của con người. Chúng ta sẽ bắt đầu lại với R. R là không đáng tin cậy. Dữ liệu xấu không đáng tin cậy vì nó
không chính xác, không đầy đủ hoặc có thiên vị. Đây có thể là dữ liệu có thiên vị chọn mẫu vì nó không
phản ánh tổng thể. Hoặc nó có thể là hình ảnh dữ liệu và biểu đồ chỉ gây hiểu lầm. Hãy xem 2 biểu đồ thanh
này, ví dụ. Biểu đồ bên trái sử dụng điểm bắt đầu trục y là 3,14%. Và bên phải sử dụng 0. Điều này khiến cho
có vẻ như lãi suất đã tăng vọt trong khoảng thời gian bốn năm khi thực tế chúng vẫn khá ổn định. Được
rồi, đến O. O là không phải bản gốc. Nếu bạn không thể tìm thấy nguồn dữ liệu gốc và bạn chỉ dựa vào thông tin
của bên thứ hai hoặc bên thứ ba, điều đó có thể báo hiệu rằng bạn có thể cần phải hết sức cẩn thận khi hiểu dữ
liệu của mình.
Bây giờ, C là không toàn diện. Các nguồn dữ liệu xấu thiếu thông tin quan trọng cần thiết để trả lời
câu hỏi hoặc tìm ra giải pháp. Tệ hơn nữa, chúng cũng có thể chứa lỗi của con người.
Lựa chọn tốt nhất của bạn là sử dụng các tập dữ liệu công khai đã được thẩm định, các bài báo học thuật,
dữ liệu tài chính và dữ liệu của cơ quan chính phủ. Bây giờ bạn đã biết cách phát hiện dữ liệu tốt, tức là
ROCCC, bạn đã sẵn sàng tìm hiểu về khối dữ liệu xấu và cách tránh chúng. Hãy bắt đầu thôi.
vi
danh sách khách hàng một năm tuổi. Tương tự như vậy đối với dữ liệu. Các nguồn dữ liệu tốt nhất là hiện
tại và có liên quan đến nhiệm vụ trong tầm tay. C cuối cùng là trích dẫn. Nếu bạn từng nói với một người
bạn rằng bạn nghe nói rằng một phần tiếp theo của bộ phim mới đang được thực hiện, thì bạn đã trích dẫn
một nguồn. Trích dẫn làm cho thông tin bạn cung cấp đáng tin cậy hơn. Khi bạn chọn một nguồn dữ liệu,
hãy nghĩ về ba điều. Ai đã tạo ra tập dữ liệu? Nó có phải là một phần của một tổ chức đáng tin cậy không? Dữ
liệu được làm mới lần cuối khi nào? Nếu bạn có dữ liệu gốc từ một tổ chức đáng tin cậy và nó toàn diện,
hiện tại và được trích dẫn, thì nó là ROCCC! Có rất nhiều nơi được biết đến là có dữ liệu tốt.
cho phân tích dữ liệu của bạn. C tiếp theo là hiện tại. Tính hữu ích của dữ liệu giảm dần theo thời gian.
Nếu bạn muốn mời tất cả khách hàng hiện tại đến một sự kiện kinh doanh, bạn sẽ không sử dụng 10-
C tiếp theo là không cập nhật. Các nguồn dữ liệu tệ là các nguồn dữ liệu lỗi thời và không liên quan. Nhiều
nguồn đáng tin cậy thường xuyên làm mới dữ liệu của họ, giúp bạn tin tưởng rằng đó là thông tin mới
nhất hiện có. Ví dụ: bạn luôn có thể tin tưởng Data.gov, nơi lưu trữ dữ liệu mở của chính phủ
Hoa Kỳ. C cuối cùng là không trích dẫn. Nếu nguồn của bạn chưa được trích dẫn hoặc kiểm tra, thì đó là không
được. Tóm lại, dữ liệu tốt phải là dữ liệu gốc từ một tổ chức đáng tin cậy, toàn diện, cập nhật và được
trích dẫn. Dữ liệu đó phải ROCCC! Nếu không, đó là dữ liệu tệ. Nếu bạn cần một nguồn dữ liệu đáng tin cậy
tuyệt vời, hãy xem Cục Thống kê Dân số Hoa Kỳ, nơi thường xuyên cập nhật thông tin của họ. Điều quan trọng
là các nhà phân tích dữ liệu phải hiểu và để mắt đến dữ liệu tệ vì dữ liệu này có thể gây ra những tác động
nghiêm trọng và lâu dài. Cho dù đó là kết luận không chính xác dẫn đến một quyết định kinh doanh tệ hại hay
thông tin không chính xác khiến các quy trình thất bại và khiến dân số gặp rủi ro, thì mọi giải pháp tốt đều
được tìm thấy bằng cách tránh dữ liệu tệ hại. Để có dữ liệu tốt, hãy kiên trì
Machine Translated by Google

C. Đạo đức dữ liệu và quyền riêng tư
1. Đạo đức dữ liệu thiết yếu
Và với điều đó, chúng ta đã đi đến hồi kết của cuộc phiêu lưu với sự thiên vị và uy tín. Sau một vài bài tập nữa, bạn sẽ sẵn
sàng cho những gì sắp tới. Tôi mong chờ sự tiến bộ của bạn.
với các tập dữ liệu công khai đã được kiểm duyệt, các bài báo học thuật, dữ liệu tài chính và dữ liệu của cơ quan chính phủ.
Xin chào lần nữa, để tôi hỏi bạn một điều. Bạn nghĩ gì khi nghĩ đến từ đạo đức? Đối với tôi, đó là một tập hợp các nguyên
tắc để sống. Hầu hết mọi người đều có một bộ quy tắc đạo đức cá nhân giúp họ định hướng thế giới. Khi chúng ta còn trẻ,
điều đó có thể đơn giản như không bao giờ nói dối, gian lận hoặc ăn cắp, nhưng khi chúng ta lớn hơn, đó là một danh
sách rộng hơn nhiều về những điều nên làm và không nên làm. Đạo đức cá nhân của chúng ta phát triển và trở nên lý trí
hơn, cung cấp cho chúng ta một la bàn đạo đức để sử dụng khi chúng ta đối mặt với các câu hỏi, thách thức và cơ hội của
cuộc sống. Khi chúng ta phân tích dữ liệu, chúng ta cũng phải đối mặt với các câu hỏi, thách thức và cơ hội, nhưng
chúng ta phải dựa vào nhiều thứ hơn là chỉ bộ quy tắc đạo đức cá nhân để giải quyết chúng. Như chúng ta đã học trước đó,
tất cả chúng ta đều có thành kiến cá nhân của riêng mình, chưa kể đến những thành kiến tiềm thức khiến đạo đức thậm chí
còn khó định hướng hơn. Đó là lý do tại sao chúng ta có đạo đức dữ liệu, một khía cạnh quan trọng của phân tích mà chúng
ta sẽ khám phá ngay tại đây trong video này. Nhưng trước tiên, hãy quay lại ý tưởng chung về đạo đức. Trong khi vẫn còn đang
thảo luận về định nghĩa chính xác trong triết học, thì một quan điểm thực tế là đạo đức đề cập đến các tiêu chuẩn đúng sai
có cơ sở vững chắc, quy định những gì con người nên làm, thường là về quyền, nghĩa vụ, lợi ích cho xã hội, sự công
bằng hoặc các đức tính cụ thể. Cũng giống như con người, dữ liệu cũng có các tiêu chuẩn để đạt được. Đạo đức dữ liệu
đề cập đến các tiêu chuẩn đúng sai có cơ sở vững chắc, quy định cách dữ liệu được thu thập, chia sẻ và sử dụng. Vì khả năng
thu thập, chia sẻ và sử dụng dữ liệu với số lượng lớn như vậy là tương đối mới, nên các quy tắc điều chỉnh và quản lý
quy trình này vẫn đang phát triển. Tầm quan trọng của quyền riêng tư dữ liệu đã được các chính phủ trên toàn thế giới công
nhận và họ bắt đầu tạo ra luật bảo vệ dữ liệu để giúp bảo vệ mọi người và dữ liệu của họ. GDPR của Liên minh Châu Âu được
tạo ra để thực hiện chính xác điều này. Trong khi các nhà hoạch định chính sách tiếp tục công việc của mình,
các công ty như Google có trách nhiệm dẫn đầu nỗ lực này và sẽ thực hiện theo tinh thần mà chúng tôi luôn có bằng cách cung
cấp các sản phẩm biến quyền riêng tư thành hiện thực cho mọi người. Khái niệm về đạo đức dữ liệu và các vấn đề liên quan
đến tính minh bạch và quyền riêng tư là một phần của quy trình. Đạo đức dữ liệu cố gắng đi đến gốc rễ của trách nhiệm mà
các công ty phải có trong việc bảo vệ và sử dụng có trách nhiệm dữ liệu mà họ thu thập. Có rất nhiều khía cạnh khác
nhau của đạo đức dữ liệu nhưng chúng ta sẽ đề cập đến sáu khía cạnh: quyền sở hữu, tính minh bạch của giao dịch, sự đồng ý,
tiền tệ, quyền riêng tư và tính cởi mở. Chúng ta sẽ khám phá quyền riêng tư và tính cởi mở của dữ liệu sau.
Đầu tiên là quyền sở hữu. Điều này trả lời câu hỏi ai sở hữu dữ liệu? Không phải tổ chức đầu tư thời gian và tiền bạc để thu
thập, lưu trữ, xử lý và phân tích dữ liệu. Mà là cá nhân sở hữu dữ liệu thô mà họ cung cấp và họ có quyền kiểm soát
chính đối với việc sử dụng dữ liệu, cách xử lý và cách chia sẻ dữ liệu. Tiếp theo, chúng ta có tính minh bạch trong giao
dịch, tức là ý tưởng rằng tất cả các hoạt động và thuật toán xử lý dữ liệu phải được cá nhân cung cấp dữ liệu của họ giải
thích và hiểu hoàn toàn. Điều này nhằm giải quyết những lo ngại về sự thiên vị dữ liệu, mà chúng ta đã thảo luận
trước đó, là một loại lỗi làm lệch kết quả theo một hướng nhất định một cách có hệ thống. Kết quả thiên vị có thể dẫn đến
hậu quả tiêu cực. Để tránh những hậu quả này, việc cung cấp phân tích minh bạch, đặc biệt là đối với những người chia sẻ dữ
liệu của họ, là rất hữu ích. Điều này cho phép mọi người đánh giá xem kết quả có công bằng và khách quan hay không và cho
phép họ nêu ra những lo ngại tiềm ẩn. Bây giờ chúng ta hãy nói về một khía cạnh khác của đạo đức dữ liệu, sự đồng ý. Đây là
Machine Translated by Google

Xin chào, tôi là Alex. Tôi là nhà khoa học nghiên cứu tại Google. Nhóm của tôi được gọi là Nhóm AI đạo đức.
Chúng tôi là một nhóm người thực sự quan tâm không chỉ đến cách AI, công nghệ hoạt động, mà còn cách nó
tương tác với xã hội và cách nó có thể giúp ích hoặc gây hại cho các cộng đồng thiểu số. Vì vậy, khi
chúng ta nói về đạo đức dữ liệu, chúng ta nghĩ về, Cách tốt và đúng để sử dụng dữ liệu là gì? Sẽ có những cách
sử dụng dữ liệu nào có lợi cho mọi người? Khi nói đến đạo đức dữ liệu, không chỉ là giảm thiểu tác hại, mà thực
sự là khái niệm về lòng nhân từ. Làm thế nào chúng ta thực sự cải thiện cuộc sống của mọi người bằng cách sử
dụng dữ liệu? Khi chúng ta nghĩ về đạo đức dữ liệu, chúng ta đang nghĩ về việc ai đang thu thập dữ liệu? Tại sao
họ thu thập dữ liệu? Họ thu thập dữ liệu như thế nào? Và vì mục đích gì? Vì cách các tổ chức có mệnh lệnh
kiếm tiền, hoặc báo cáo với ai đó, hoặc cung cấp một số phân tích, chúng ta cũng phải ghi nhớ mạnh mẽ cách thức
điều này thực sự sẽ mang lại lợi ích cho mọi người vào cuối ngày. Những người được đại diện trong dữ liệu này
có được hưởng lợi từ điều này không? Tôi nghĩ đó là điều mà bạn không bao giờ muốn quên với tư cách là một
nhà khoa học dữ liệu hoặc một nhà phân tích dữ liệu. Tôi nghĩ rằng các nhà phân tích dữ liệu đầy tham vọng
cần ghi nhớ rằng rất nhiều dữ liệu mà bạn sẽ gặp phải là dữ liệu đến từ con người. Vì vậy, vào cuối ngày, dữ
liệu là con người. Và bạn muốn có trách nhiệm với những người được đại diện trong dữ liệu đó. Thứ hai, là
suy nghĩ về cách giữ cho các khía cạnh dữ liệu của họ được bảo vệ và riêng tư. Chúng tôi không muốn thực hiện
suy nghĩ của mình về các trường hợp dữ liệu như thứ mà chúng tôi có thể chỉ cần đưa lên web. Không, cần phải
cân nhắc về cách giữ thông tin và hình ảnh giống nhau đó, như hình ảnh, giọng nói hoặc văn bản của họ. Làm thế
nào để chúng tôi giữ được sự riêng tư đó?
2. Bài ôn tập tùy chọn: Alex và tầm quan trọng của đạo đức dữ liệu
quyền được biết thông tin chi tiết rõ ràng về cách thức và lý do dữ liệu của họ sẽ được sử dụng trước khi
đồng ý cung cấp dữ liệu. Họ nên biết câu trả lời cho những câu hỏi như tại sao dữ liệu được thu thập? Dữ liệu sẽ
được sử dụng như thế nào? Dữ liệu sẽ được lưu trữ trong bao lâu? Cách tốt nhất để đưa ra sự đồng ý có
lẽ là cuộc trò chuyện giữa người cung cấp dữ liệu và người yêu cầu dữ liệu. Nhưng với rất nhiều hoạt động diễn
ra trực tuyến hiện nay, sự đồng ý thường chỉ trông giống như một hộp kiểm điều khoản và điều kiện có
liên kết đến nhiều thông tin chi tiết hơn. Hãy đối mặt với sự thật, không phải ai cũng nhấp vào để đọc những
thông tin chi tiết đó. Sự đồng ý rất quan trọng vì nó ngăn chặn mọi nhóm dân số bị nhắm mục tiêu một cách
không công bằng, đây là vấn đề rất lớn đối với các nhóm thiểu số thường bị dữ liệu thiên vị bóp
méo một cách không cân xứng. Tiếp theo, là tiền tệ. Các cá nhân nên nhận thức được các giao dịch tài chính phát
sinh từ việc sử dụng dữ liệu cá nhân của họ và quy mô của các giao dịch này. Nếu dữ liệu của bạn đang giúp tài
trợ cho các nỗ lực của một công ty, bạn nên biết những nỗ lực đó là gì và được trao cơ hội từ chối. Hai khía
cạnh cuối cùng của đạo đức dữ liệu, quyền riêng tư và tính cởi mở, xứng đáng được chú ý riêng trong giai đoạn
dữ liệu này. Tiếp theo, bạn sẽ hiểu lý do.
Chúng ta cũng cần phải suy nghĩ về cách chúng ta có thể có các cơ chế cung cấp cho người dùng và người
tiêu dùng nhiều quyền kiểm soát hơn đối với dữ liệu của họ. Sẽ không đủ nếu chỉ nói rằng chúng tôi đã
thu thập tất cả dữ liệu này và tin tưởng chúng tôi với tất cả dữ liệu này, nhưng chúng ta cần đảm bảo
rằng có những cách có thể thực hiện được mà mọi người có thể đồng ý cung cấp những dữ liệu đó và những cách mà
họ có thể yêu cầu thu hồi hoặc xóa dữ liệu đó. Dữ liệu đang tăng lên và đồng thời, chúng ta cần trao quyền cho
mọi người để họ có quyền kiểm soát dữ liệu của riêng họ. Tương lai là dữ liệu luôn tăng lên. Chúng ta chưa
thấy bất kỳ bằng chứng nào cho thấy dữ liệu thực sự đang giảm. Và với kiến thức
Machine Translated by Google

Tầm quan trọng của quyền riêng tư dữ liệu đã được các chính phủ trên toàn thế giới công nhận và họ đã bắt đầu tạo ra
luật bảo vệ dữ liệu để giúp bảo vệ mọi người và dữ liệu của họ. Có thể tin tưởng các công ty với dữ liệu của bạn là
điều quan trọng. Đó là điều khiến mọi người muốn sử dụng sản phẩm của công ty, chia sẻ thông tin của họ và hơn thế
nữa. Niềm tin là một trách nhiệm thực sự lớn không thể coi nhẹ. Khía cạnh cuối cùng liên quan đến đạo đức dữ liệu
là khía cạnh liên tục được thảo luận.
Ý tưởng về tính cởi mở, quyền truy cập miễn phí, sử dụng và chia sẻ dữ liệu. Chúng tôi sẽ đề cập đến điều đó trong
một video khác. Bạn đang trên con đường trở thành một nhà phân tích dữ liệu có đạo đức.
4. Ẩn danh dữ liệu
Ẩn danh dữ liệu là gì?
3. Ưu tiên quyền riêng tư dữ liệu
Điều này có nghĩa là một người như bạn hoặc tôi phải được bảo vệ khỏi việc truy cập trái phép vào dữ liệu riêng tư
của chúng tôi, không bị sử dụng dữ liệu không phù hợp, có quyền kiểm tra, cập nhật hoặc chỉnh sửa dữ liệu của
chúng tôi, có khả năng đồng ý sử dụng dữ liệu của chúng tôi và có quyền hợp pháp để truy cập dữ liệu của chúng tôi. Đối
với các công ty, điều này có nghĩa là áp dụng các biện pháp bảo mật để bảo vệ dữ liệu của cá nhân. Quyền riêng tư dữ
liệu rất quan trọng, ngay cả khi bạn không phải là người nghĩ về nó hàng ngày.
Chúng tôi đã khám phá một số khía cạnh quan trọng của đạo đức dữ liệu và một trong những lĩnh vực riêng tư nhất liên
quan đến quyền riêng tư. Quyền riêng tư là cá nhân. Tất cả chúng ta đều có thể định nghĩa quyền riêng tư theo cách
riêng của mình và chúng ta đều có quyền đó. Cho dù đó là các thành viên gia đình muốn có quyền riêng tư khi sử dụng
máy tính dùng chung, một thiếu niên muốn chia sẻ ảnh tự sướng với những người cụ thể hay một công ty muốn giữ
thông tin thẻ tín dụng của khách hàng được an toàn, thì tất cả chúng ta đều quan tâm đến cách dữ liệu của mình được
sử dụng và chia sẻ. Quyền riêng tư dữ liệu rất quan trọng trong nền văn hóa ngày nay, vì vậy hãy cùng khám phá đầy đủ
về nó. Khi nói về dữ liệu, quyền riêng tư có nghĩa là bảo vệ thông tin và hoạt động của chủ thể dữ liệu bất kỳ khi
nào xảy ra giao dịch dữ liệu. Đôi khi điều này được gọi là quyền riêng tư thông tin hoặc bảo vệ dữ liệu. Tất cả đều
liên quan đến quyền truy cập, sử dụng và thu thập dữ liệu. Nó cũng bao gồm quyền hợp pháp của một người đối với dữ liệu của họ.
dữ liệu ngày càng tăng, những vấn đề này ngày càng trở nên cấp thiết và quan trọng hơn để suy nghĩ.
Bạn đã tìm hiểu về tầm quan trọng của quyền riêng tư trong phân tích dữ liệu. Bây giờ, đã đến lúc nói về ẩn danh dữ
liệu và những loại dữ liệu nào nên được ẩn danh. Thông tin nhận dạng cá nhân, hay PII, là thông tin có thể được
sử dụng riêng lẻ hoặc với dữ liệu khác để theo dõi danh tính của một người.
Vai trò của bạn trong việc ẩn danh dữ liệu
Các tổ chức có trách nhiệm bảo vệ dữ liệu của họ và thông tin cá nhân mà dữ liệu có thể chứa. Là một nhà phân tích
dữ liệu, bạn có thể được yêu cầu hiểu dữ liệu nào cần được ẩn danh, nhưng nhìn chung bạn sẽ không chịu trách nhiệm
về việc ẩn danh dữ liệu
Ẩn danh dữ liệu là quá trình bảo vệ dữ liệu riêng tư hoặc nhạy cảm của mọi người bằng cách loại bỏ loại
thông tin đó. Thông thường, ẩn danh dữ liệu bao gồm việc xóa, băm hoặc che giấu thông tin cá nhân, thường bằng
cách sử dụng mã có độ dài cố định để biểu diễn các cột dữ liệu hoặc ẩn dữ liệu có giá trị đã thay đổi.
Machine Translated by Google

Số an sinh xã hội
Đồ họa màn hình máy tính. Một cục tẩy đang xóa các phần dữ liệu đang được hiển thị
Hình ảnh
[NHẠC] Tôi tên là Andrew. Tôi là một người ủng hộ nhà phát triển cấp cao trong nhóm nghiên cứu AI có đạo
đức tại Google. Là một người ủng hộ nhà phát triển cấp cao, tôi cố gắng giúp cộng đồng lớn hơn xây dựng
các hệ thống AI có trách nhiệm xã hội. Một hậu quả của việc không sử dụng công nghệ này một cách có trách
nhiệm là khả năng khuếch đại hoặc củng cố các thành kiến không công bằng. Hiện nay, các thuật toán này,
các tập dữ liệu này thường được sử dụng trong các bối cảnh mà chúng quyết định kết quả. Cho dù đó là
Địa chỉ email
Dữ liệu y tế và tài chính là hai loại dữ liệu nhạy cảm nhất. Các ngành này phụ thuộc rất
nhiều vào các kỹ thuật ẩn danh dữ liệu. Xét cho cùng, rủi ro rất cao. Đó là lý do tại sao dữ
liệu trong hai ngành này thường trải qua quá trình xóa nhận dạng, đây là một quy trình được sử
dụng để xóa sạch dữ liệu khỏi mọi thông tin nhận dạng cá nhân.
Số điện thoại
Đối với một số người, việc loại dữ liệu này cần được ẩn danh là điều hợp lý. Đối với những người
khác, chúng ta phải rất cụ thể về những gì cần được ẩn danh. Hãy tưởng tượng một thế giới mà
tất cả chúng ta đều có quyền truy cập vào địa chỉ, số tài khoản và thông tin nhận dạng khác của nhau.
Số tài khoản
Ẩn danh dữ liệu được sử dụng trong hầu hết mọi ngành công nghiệp. Đó là lý do tại sao các nhà
phân tích dữ liệu cần hiểu những điều cơ bản. Sau đây là danh sách dữ liệu thường được ẩn danh:
5. Andrew: Việc sử dụng dữ liệu một cách có đạo đức
Biển số xe và số giấy phép
Tên
Điều đó sẽ xâm phạm quyền riêng tư của nhiều người và khiến thế giới kém an toàn hơn. Ẩn
danh dữ liệu là một trong những cách chúng ta có thể giữ dữ liệu riêng tư và an toàn!
Những loại dữ liệu nào cần được ẩn danh?
Hồ sơ y tế
chính nó. Một trường hợp ngoại lệ hiếm hoi có thể xảy ra nếu bạn làm việc với một bản sao dữ liệu
cho mục đích thử nghiệm hoặc phát triển. Trong trường hợp này, bạn có thể được yêu cầu ẩn danh dữ liệu trước
khi làm việc với nó.
Địa chỉ IP
Machine Translated by Google

1. Các tính năng của dữ liệu mở
Có điều gì đó rất giải phóng khi có thể tìm thấy thông tin về bất kỳ chủ đề nào trên Internet. Không nhớ được câu
thứ 3 trong bài hát thời thơ ấu yêu thích của bạn, tò mò ai là người có nhiều cú đánh bóng về nhà nhất vào năm
1986, muốn tự học ngôn ngữ ký hiệu? Chỉ cần mở máy tính xách tay của bạn, nhập một số văn bản và bùm, bạn đã có
những gì bạn cần. Nhiều nhóm cho rằng chúng ta cũng nên có mức độ truy cập dữ liệu này. Thậm chí còn có một phong
trào toàn cầu tin rằng tính cởi mở của dữ liệu có thể biến đổi xã hội và cách đưa ra quyết định. Cho đến
nay, chúng ta đã nói rất nhiều về sức mạnh của dữ liệu và tầm quan trọng của các mối quan tâm về đạo đức dữ liệu
bao gồm quyền sở hữu, tính minh bạch của giao dịch, sự đồng ý, tiền tệ và quyền riêng tư. Bây giờ, hãy nói về tính
cởi mở.
D. Hiểu dữ liệu mở
tuyển chọn nội dung cho một cá nhân hoặc xác định xem họ có đủ điều kiện vay hay không, tất cả các quy trình ra
quyết định khác nhau này đều phụ thuộc vào các thuật toán và tập dữ liệu đang được sử dụng trong bối cảnh đó. Và do
đó, nếu điều này được xử lý một cách vô trách nhiệm, thì chính kết quả của các hệ thống này có khả năng gây hại
cho các cộng đồng chưa được đại diện, các nhóm thiểu số. Có rất nhiều điều mà lĩnh vực, ngành công nghiệp, cộng
đồng đang tìm hiểu về việc sử dụng dữ liệu và AI có trách nhiệm. Vì vậy, những gì tôi cố gắng làm là cố
gắng liên hệ tất cả các yếu tố khác nhau đó, cho dù đó là làm việc với các nhóm nghiên cứu khác nhau trong
Google, làm việc với các nhóm sản phẩm khác nhau tại Google, tương tác với cộng đồng lớn hơn. Chúng ta phải
vượt lên trên và vượt ra ngoài và thực sự giáo dục những người đang nỗ lực xây dựng công nghệ này vì mục đích tốt
đẹp nhưng có thể không nhất thiết phải có nguồn lực hoặc trí tuệ của cộng đồng tổ chức để thực sự thực hiện các ý
định tốt của họ. Vì vậy, sự thật của vấn đề là AI, dữ liệu và bất kỳ công nghệ nào được xây dựng xung quanh điều
đó, đều có rất nhiều lợi ích tuyệt vời. Nó đang cải thiện cuộc sống của nhiều người ngoài kia. Nó cho phép chúng ta
làm những việc mà thông thường chúng ta không thể làm. Nó cung cấp cho chúng ta khả năng suy nghĩ về những thứ khác
trong cuộc sống. Đây càng là lý do tại sao điều quan trọng là chúng ta cùng nhau, cùng nhau, không chỉ một tổ chức,
mà là toàn bộ cộng đồng, và thậm chí cả những người không phải là chuyên gia công nghệ, mọi người đều cần tham
gia. Đó là vai trò của tôi ở đây, là tôi cố gắng giúp AI cùng nhau tiến hóa một cách có đạo đức, và để làm được
điều đó phụ thuộc vào việc dân chủ hóa việc sử dụng AI có trách nhiệm. [NHẠC]
Khi nói đến dữ liệu, tính cởi mở ám chỉ đến quyền truy cập, sử dụng và chia sẻ dữ liệu miễn phí. Đôi khi chúng ta
gọi đây là dữ liệu mở, nhưng điều đó không có nghĩa là chúng ta bỏ qua các khía cạnh khác của đạo đức dữ liệu mà
chúng ta đã đề cập. Chúng ta vẫn nên minh bạch, tôn trọng quyền riêng tư và đảm bảo rằng chúng ta có sự đồng ý đối
với dữ liệu thuộc sở hữu của người khác. Điều này chỉ có nghĩa là chúng ta có thể truy cập, sử dụng và chia sẻ dữ
liệu đó nếu dữ liệu đó đáp ứng các tiêu chuẩn cao này. Ví dụ, có các tiêu chuẩn về tính khả dụng và khả năng truy cập.
Dữ liệu mở phải có sẵn dưới dạng toàn bộ, tốt nhất là tải xuống qua Internet dưới dạng thuận tiện và có thể sửa
đổi. Trang web data.gov là một ví dụ tuyệt vời. Bạn có thể tải xuống dữ liệu khoa học và nghiên cứu cho
nhiều ngành công nghiệp khác nhau ở các định dạng tệp đơn giản như bảng tính. Một tiêu chuẩn khác bao gồm việc tái
sử dụng và phân phối lại. Dữ liệu mở phải được cung cấp theo các điều khoản cho phép tái sử dụng và phân
phối lại bao gồm khả năng sử dụng nó với các tập dữ liệu khác. Và lĩnh vực cuối cùng là sự tham gia phổ quát. Mọi
người phải có thể sử dụng, tái sử dụng và phân phối lại dữ liệu. Không nên có bất kỳ sự phân biệt đối xử nào
đối với các lĩnh vực, cá nhân hoặc nhóm. Không ai có thể đặt ra các hạn chế đối với dữ liệu như chỉ cung cấp để sử
dụng trong một ngành cụ thể. Bây giờ chúng ta hãy nói thêm một chút về lý do tại sao dữ liệu mở lại tuyệt vời như
vậy và nó có thể giúp bạn như thế nào với tư cách là một nhà phân tích dữ liệu. Một trong những lợi ích lớn nhất
của dữ liệu mở là tính đáng tin cậy
Machine Translated by Google

Tính mở đề cập đến việc truy cập, sử dụng và chia sẻ dữ liệu miễn phí. Nhưng để dữ liệu được coi là mở, nó phải:
2. Cuộc tranh luận về dữ liệu mở
Dữ liệu chỉ được coi là mở khi nó đáp ứng cả ba tiêu chuẩn này.
Cho phép sự tham gia chung để bất kỳ ai cũng có thể sử dụng, tái sử dụng và phân phối lại dữ liệu
Ví dụ, khả năng tương tác dữ liệu rất quan trọng đối với các hệ thống thông tin chăm sóc sức khỏe, nơi nhiều tổ chức
như bệnh viện, phòng khám, hiệu thuốc và phòng xét nghiệm cần truy cập và chia sẻ dữ liệu để đảm bảo bệnh nhân nhận được
dịch vụ chăm sóc mà họ cần. Đây là lý do tại sao bác sĩ của bạn có thể gửi đơn thuốc của bạn trực tiếp đến hiệu thuốc để kê
đơn. Họ có cơ sở dữ liệu tương thích cho phép họ chia sẻ thông tin. Nhưng loại khả năng tương tác này đòi hỏi rất nhiều
sự hợp tác. Mặc dù có tiềm năng lớn trong việc chia sẻ dữ liệu công khai, kịp thời, công bằng và đơn giản, nhưng
tương lai của nó sẽ phụ thuộc vào mức độ hiệu quả giải quyết các thách thức lớn hơn. Là một nhà phân tích dữ liệu, tôi nói
rằng càng sớm càng tốt. Nói về điều đó, chúng ta sẽ nói nhiều hơn về dữ liệu mở và xem cách sử dụng dữ liệu này trong
thực tế trong một video sắp tới. Bây giờ bạn đã tìm hiểu tất cả về đạo đức dữ liệu, bạn có một số nguyên tắc quan trọng để
hướng dẫn bạn trên hành trình dữ liệu của mình. Bất cứ khi nào bạn không chắc chắn về dữ liệu của mình, hãy nhớ những gì
bạn đã học ở đây. Chúc bạn may mắn.
Minh họa về thang đo cân bằng dữ liệu số
Một trong những lợi ích lớn nhất của dữ liệu mở là cơ sở dữ liệu đáng tin cậy có thể được sử dụng rộng rãi hơn.
Cuộc tranh luận về dữ liệu mở: Dữ liệu nào nên được công khai?
Giống như quyền riêng tư dữ liệu, dữ liệu mở là một chủ đề được tranh luận rộng rãi trên thế giới ngày nay. Các nhà phân
tích dữ liệu suy nghĩ rất nhiều về dữ liệu mở và với tư cách là một nhà phân tích dữ liệu tương lai, bạn cần hiểu những điều
cơ bản để thành công trong vai trò mới của mình.
Trong phân tích dữ liệu, dữ liệu mở là một phần của đạo đức dữ liệu, liên quan đến việc sử dụng dữ liệu một cách có đạo đức.
Dữ liệu mở là gì?
Về cơ bản, điều này có nghĩa là tất cả dữ liệu tốt đó có thể được tận dụng, chia sẻ và kết hợp với dữ liệu khác. Điều này
có thể có tác động rất lớn đến sự hợp tác khoa học, tiến bộ nghiên cứu,
Khả năng tương tác là khả năng các hệ thống dữ liệu và dịch vụ kết nối và chia sẻ dữ liệu một cách cởi mở.
Được cung cấp theo các điều khoản cho phép nó được tái sử dụng và phân phối lại
cơ sở dữ liệu có thể được sử dụng rộng rãi hơn. Quan trọng hơn, tất cả dữ liệu tốt đó có thể được tận dụng, chia sẻ và kết
hợp với dữ liệu khác. Hãy tưởng tượng tác động mà nó sẽ có đối với sự hợp tác khoa học, tiến bộ nghiên cứu, năng lực phân
tích và ra quyết định. Ví dụ, trong sức khỏe con người, tính cởi mở cho phép chúng ta truy cập và kết hợp nhiều dữ liệu khác
nhau để phát hiện bệnh sớm hơn. Trong chính phủ, bạn có thể giúp các nhà lãnh đạo chịu trách nhiệm và cung cấp quyền
truy cập tốt hơn vào các dịch vụ cộng đồng. Các khả năng và lợi ích là gần như vô tận. Nhưng tất nhiên, mọi ý tưởng lớn
đều có những thách thức riêng. Cần rất nhiều nguồn lực để thực hiện chuyển đổi công nghệ sang dữ liệu mở. Khả năng
tương tác là chìa khóa thành công của dữ liệu mở.
Có sẵn và có thể truy cập được cho công chúng dưới dạng một tập dữ liệu hoàn chỉnh
Machine Translated by Google

Mọi người đều muốn giữ thông tin cá nhân của mình riêng tư. Vì dữ liệu của bên thứ ba có sẵn nên điều quan trọng
là phải cân bằng tính công khai của dữ liệu với quyền riêng tư của cá nhân.
3. Andrew: Các bước sử dụng dữ liệu có đạo đức
Tên tôi là Andrew. Tôi là Người ủng hộ phát triển cấp cao trong nhóm nghiên cứu AI đạo đức tại Google. Là một
nhà phân tích, có khá nhiều điều bạn có thể làm khi đánh giá tập dữ liệu của mình để đảm bảo rằng bạn đang xem xét
nó thông qua nhiều góc nhìn đạo đức khác nhau. Một trong số đó là tự phản ánh và hiểu những gì bạn đang làm
và tác động của nó.
Bạn có thể nhớ đã tìm hiểu về loại dữ liệu này trước đó. Ví dụ, bên thứ ba có thể thu thập thông tin về
khách truy cập vào một trang web nhất định. Việc này cho phép các bên thứ ba này tạo hồ sơ đối tượng,
giúp họ hiểu rõ hơn về hành vi của người dùng và nhắm mục tiêu vào họ bằng quảng cáo hiệu quả hơn.
Thông tin nhận dạng cá nhân (PII) là dữ liệu có khả năng nhận dạng một người và cung cấp thông tin về họ. Điều
quan trọng là phải giữ an toàn cho dữ liệu này. PII có thể bao gồm địa chỉ, thông tin thẻ tín dụng, số an
sinh xã hội, hồ sơ y tế của một người, v.v.
Dữ liệu của bên thứ ba được thu thập bởi một thực thể không có mối quan hệ trực tiếp với dữ liệu.
khả năng phân tích và ra quyết định. Nhưng điều quan trọng là phải nghĩ đến những cá nhân được đại diện bởi
công chúng, dữ liệu mở.
Nhưng với tư cách là một nhà phân tích dữ liệu, bạn đứng ở giao điểm giữa những người sẽ được hưởng lợi từ
công nghệ đang được phát triển và những người trong tổ chức của bạn đang cố gắng đưa ra quyết định sáng suốt
hơn về việc có nên tiếp tục với công nghệ đó hay không.
Cách tốt nhất để thách thức điều đó là đặt câu hỏi về việc chúng ta là ai. Chúng ta, giống như, được rồi,
chúng ta trong nhóm này đang cố gắng xây dựng điều này vì chúng ta nghĩ rằng điều đó sẽ giúp cải thiện sản phẩm
này hoặc điều đó sẽ giúp đưa ra quyết định về những gì chúng ta muốn làm tiếp theo. Hãy nghĩ không chỉ về những
người ngồi cạnh bạn mà còn về những người được đại diện trong tập dữ liệu này và những người không được
đại diện trong tập dữ liệu này, sau đó sử dụng trực giác đó để tiếp tục đặt câu hỏi về tính toàn vẹn, chất
lượng, sự đại diện có trong tập dữ liệu đó. Và sau đó, hãy nghĩ về những tác hại và rủi ro khác nhau
liên quan đến công việc bạn đang làm. Ví dụ, nếu bạn nghĩ rằng bạn sẽ được hưởng lợi khi giữ tập dữ liệu lâu
hơn, bạn cũng có thể muốn hiểu rủi ro khi giữ tập dữ liệu này là gì? Tác hại tiềm ẩn có thể phát sinh là gì
nếu bạn tiếp tục xem tập dữ liệu và tiếp tục lưu trữ và tiếp tục truy xuất dữ liệu này? Và ngoài ra, hãy
hiểu quy trình đồng ý như thế nào. Bạn có thông báo cho những người đó rằng bạn đang thu thập dữ liệu từ cách
dữ liệu đó sẽ được sử dụng không? Kênh truyền thông như thế nào? Sử dụng nhiều lăng kính đạo đức khác nhau,
áp dụng cách tiếp cận tinh tế hơn đối với phân tích của bạn, nhận thức được tất cả các rủi ro và tác hại có thể
phát sinh khi không chỉ phân tích tập dữ liệu của bạn mà còn trình bày tập dữ liệu của bạn. Cách bạn mô tả kết
quả, cách chúng được sử dụng trong quá trình ra quyết định, liệu bạn có trình bày điều này với ban quản lý
hay trình bày điều này với các giám đốc điều hành hay trình bày điều này với nhiều đối tượng hơn. Tất cả
những điều đó đều quan trọng trong việc sử dụng tập dữ liệu một cách có trách nhiệm.
Machine Translated by Google

Trang dữ liệu của chính phủ Hoa Kỳ
: Data.gov là một trong những nguồn dữ liệu toàn diện nhất tại Hoa Kỳ. Nguồn dữ liệu này cung cấp cho người dùng
dữ liệu và công cụ mà họ cần để nghiên cứu, thậm chí còn giúp họ phát triển các ứng dụng web và di động và thiết kế hình
ảnh dữ liệu.
Cục Thống kê Dân số Hoa Kỳ
Bộ dữ liệu công khai của Google Cloud
4. Tài nguyên cho dữ liệu mở
May mắn cho các nhà phân tích dữ liệu, có rất nhiều nguồn đáng tin cậy có sẵn cho dữ liệu mở. Điều quan trọng cần nhớ là
ngay cả dữ liệu có uy tín cũng cần được đánh giá liên tục, nhưng các trang web này là điểm khởi đầu hữu ích:
vi
sản xuất công nghệ. Có thể bạn cảm thấy có rất nhiều trọng lượng ở đó, và đúng là như vậy, nhưng nó cũng rất quan trọng,
và nó nói lên mức độ tác động của công việc bạn làm.
Mạng dữ liệu mở
: Nguồn dữ liệu này có công cụ tìm kiếm thực sự mạnh mẽ và bộ lọc nâng cao. Tại đây, bạn có thể tìm thấy dữ liệu về
các chủ đề như tài chính, an toàn công cộng, cơ sở hạ tầng, nhà ở và phát triển.
Tìm kiếm tập dữ liệu
:Nguồn dữ liệu mở này cung cấp thông tin nhân khẩu học từ chính quyền liên bang, tiểu bang, địa phương và các
tổ chức thương mại tại Hoa Kỳ.
: Có một số tập dữ liệu công khai có sẵn thông qua Chương trình tập dữ liệu công khai của Google Cloud mà bạn có thể
tìm thấy đã được tải vào BigQuery.
:Dataset Search là công cụ tìm kiếm được thiết kế riêng cho các tập dữ liệu; bạn có thể sử dụng công cụ này để tìm kiếm
các tập dữ liệu cụ thể.
Machine Translated by Google