Nói cách khác, nếu tôi truy cập vào website y tế WebMD và tìm kiếm về “nấm da chân,” thì cụm từ nấm da chân không mã hóa sẽ xuất hiện trong URL hiển thị trên thanh địa chỉ ở trình duyệt của tôi. Điều đó có nghĩa là tất cả – từ trình duyệt, nhà cung cấp Internet, cho đến nhà mạng điện thoại của tôi – đều biết tôi tìm kiếm thông tin về nấm da chân. HTTPS Everywhere sẽ mã hóa nội dung của website mà bạn truy cập – giả dụ website đó hỗ trợ https – nhưng nó không mã hóa URL. Đến Tổ chức Biên giới điện tử cũng phải đưa ra lời cảnh báo rằng https không được thiết kế để che giấu thông tin nhận dạng của các website mà bạn truy cập.
Thêm vào đó, nghiên cứu trên còn chỉ ra rằng 91% các website liên quan tới sức khỏe thực hiện tham vấn tới các bên thứ ba. Các tham vấn này được nhúng trong bản thân các website, và chúng gọi về những hình ảnh tí hon (hiển thị hoặc không hiển thị trên trang trình duyệt) làm nhiệm vụ thông báo cho các website bên thứ ba rằng bạn đang truy cập một website cụ thể nào đó. Khi bạn tìm kiếm “nấm da chân,” có đến 20 đối tượng khác nhau – từ công ty dược cho tới Facebook, Pinterest, Twitter, và Google – sẽ được liên hệ ngay khi kết quả tìm kiếm xuất hiện trên trình duyệt của bạn. Lúc này, tất cả các bên thứ ba đó đều biết bạn đang tìm kiếm thông tin về nấm da chân.
Họ sử dụng thông tin này để hiển thị quảng cáo trực tuyến cho bạn. Ngoài ra, nếu bạn đăng nhập vào website trên, họ còn có thể lấy được địa chỉ email của bạn nữa. Thật may, tôi có thể giúp bạn ngăn chặn họ tìm hiểu thêm về bạn. Trên các website về sức khỏe được phân tích trong nghiên cứu trên, mười bên thứ ba hàng đầu là Google, comScore, Facebook, AppNexus, AddThis, Twitter, Quantcast, Amazon, Adobe, và Yahoo – trong đó có một số, như comScore, AppNexus, và Quantcast, thực hiện đo lường lưu lượng website như Google. Cũng trong số trên, Google, Facebook, Twitter, Amazon, Adobe, và Yahoo do thám hoạt động của bạn nhằm mục đích thương mại, chẳng hạn hiển thị quảng cáo về các phương pháp chữa nấm bàn chân trong các phiên tìm kiếm sau này của bạn.
Nghiên cứu này còn nhắc đến các bên thứ ba Experian và Axiom, vốn chỉ đơn thuần là các kho dữ liệu (data warehouse), thu thập tối đa dữ liệu về một người. Rồi họ bán dữ liệu đó. Bạn có nhớ các câu hỏi bảo mật và câu trả lời sáng tạo mà tôi khuyên dùng không? Thường thì các công ty như Experian và Axiom thu thập, cung cấp, và sử dụng các câu hỏi bảo mật đó để xây dựng thành những hồ sơ trực tuyến giá trị cho các nhà tiếp thị muốn nhắm mục tiêu đến phân khúc khách hàng phù hợp.
Chuyện này diễn ra như thế nào?
Dù bạn gõ tay URL hay sử dụng công cụ tìm kiếm, mọi website trên Internet đều có hostname[57] và địa chỉ IP bằng số (một số website chỉ tồn tại dưới dạng địa chỉ số). Nhưng bạn hầu như không bao giờ thấy địa chỉ bằng số này. Trình duyệt sẽ ẩn nó đi và sử dụng dịch vụ tên miền (DNS) để dịch hostname của website thành địa chỉ cụ thể, ví dụ Google thành https://74.125.224.72/.
[57] Hostname: Cụm ký tự gán cho một thiết bị kết nối với mạng máy tính, dùng để xác định thiết bị đó trong các hình thức liên lạc điện tử khác nhau, như mạng diện rộng World Wide Web.
DNS giống như danh bạ điện thoại toàn cầu, tham chiếu chéo hostname với địa chỉ số của máy chủ cung cấp website mà bạn yêu cầu. Khi bạn gõ chữ “Google.com” vào trình duyệt, DNS sẽ liên hệ với máy chủ của họ tại https://74.125.224.72. Sau đó, bạn sẽ thấy màn hình màu trắng quen thuộc hiện ra, với biểu tượng Google Doodle[58] trong ngày bên trên một trường tìm kiếm trống. Về lý thuyết, mọi trình duyệt web đều hoạt động theo cách này. Nhưng trên thực tế có nhiều điều để nói hơn.
[58] Google Doodle: Biểu tượng đặc biệt, thay thế tạm thời cho biểu tượng trên trang chủ của Google để chào mừng các ngày lễ, sự kiện, nhân vật…
Sau khi đã được xác định thông qua địa chỉ số, website sẽ gửi thông tin trở lại trình duyệt web của bạn để “xây dựng” nên website mà bạn nhìn thấy. Khi trang được trả về trình duyệt, bạn sẽ thấy các phần tử theo đúng kỳ vọng của mình – các thông tin mà bạn muốn truy xuất, mọi hình ảnh có liên quan, và các cách để điều hướng đến những phần khác của website. Nhưng thông thường, một số phần tử được trả về trình duyệt lại gọi tới các website khác để yêu cầu thêm hình ảnh hoặc tập lệnh. Một số – nếu không phải là tất cả – tập lệnh này phục vụ cho mục đích theo dõi, và hầu hết là bạn không cần đến chúng.
Gần như mọi công nghệ kỹ thuật số đều tạo ra siêu dữ liệu, và các trình duyệt cũng không phải là ngoại lệ. Trình duyệt có thể tiết lộ thông tin về cấu hình máy tính của bạn nếu bị website mà bạn đang truy cập truy vấn – ví dụ, bạn đang sử dụng trình duyệt và hệ điều hành nào, phiên bản bao nhiêu; trình duyệt đó có những tiện ích bổ sung nào; và trong khi tìm kiếm, bạn chạy những chương trình nào khác trên máy tính (chẳng hạn các sản phẩm của Adobe). Nó thậm chí còn có thể tiết lộ thông tin chi tiết về phần cứng máy tính của bạn, chẳng hạn độ phân giải màn hình và dung lượng bộ nhớ tích hợp. Khi đọc tới đây, có thể bạn sẽ yên chí rằng mình đã có những bước tiến lớn trong việc trở thành vô hình trên mạng. Vâng, đúng là như vậy. Nhưng vẫn còn việc phải làm đấy.
Hãy dành chút thời gian vào trang Panopticlick.com. Đây là website do Tổ chức Biên giới Điện tử xây dựng, có thể chỉ ra mức độ phổ biến trong cách cài đặt cấu hình trên trình duyệt của bạn so với người khác dựa trên những gì đang được chạy trên hệ điều hành và các plugin trong thiết bị. Nói cách khác, bạn có plugin nào có thể dùng để giới hạn hoặc bảo vệ các thông tin mà Panopticlick có thể thu thập được từ trình duyệt của bạn hay không?
Nếu trong kết quả kiểm tra nhận về từ Panopticlick, thông số ở bên tay trái có giá trị lớn – ví dụ sáu chữ số – thì trường hợp của bạn là tương đối độc đáo, vì tỉ lệ gặp được cấu hình trình duyệt của bạn là chưa đến 1 trong 100.000 máy tính. Xin chúc mừng. Tuy nhiên, nếu thông số này thấp – ví dụ dưới ba chữ số – thì cấu hình trình duyệt của bạn là khá phổ biến với tỉ lệ gặp là 1 trong một vài trăm máy tính. Điều đó có nghĩa là nếu muốn nhắm mục tiêu vào bạn – để cung cấp quảng cáo hay phần mềm độc hại – tôi sẽ không phải mất nhiều công sức, vì bạn có cấu hình trình duyệt rất phổ biến.
Có thể bạn nghĩ rằng cấu hình phổ biến sẽ giúp bạn trở nên vô hình, vì bạn là một phần của đám đông, bạn lẫn trong đám đông. Nhưng từ góc độ kỹ thuật, điều này sẽ khiến bạn dễ trở thành đối tượng tấn công của những hoạt động ác ý. Hacker tội phạm không muốn tốn nhiều công sức. Nếu một ngôi nhà để cửa mở còn nhà bên cạnh khóa cửa, bạn nghĩ kẻ trộm sẽ đột nhập vào đâu? Nếu hacker tội phạm biết bạn có cấu hình phổ biến, thì có lẽ bạn cũng thiếu một số biện pháp bảo vệ để tăng cường an ninh.
Tôi biết, tôi vừa nhảy cóc từ chỗ đang nói đến chuyện các nhà tiếp thị muốn theo dõi hoạt động trực tuyến của bạn sang bàn chuyện hacker tội phạm sử dụng thông tin cá nhân để đánh cắp nhận dạng của bạn. Hai vấn đề này là rất khác nhau. Nhà tiếp thị thu thập thông tin để tạo quảng cáo giúp mang lại lợi nhuận cho các website. Nếu không có quảng cáo, một số website sẽ không thể tiếp tục tồn tại. Tuy nhiên, giới tiếp thị, hacker tội phạm, và cả chính phủ đều tìm cách lấy được những thông tin mà bạn có thể không muốn cung cấp, và tất cả thường tham gia sôi nổi vào các cuộc tranh luận về sự xâm phạm quyền riêng tư.
Một cách giúp bạn vừa là một phần của số đông vừa ngăn chặn được hoạt động nghe trộm trực tuyến là sử dụng máy ảo (virtual machine – VM) – đây là một hệ điều hành như Mac OSX chạy trên hệ điều hành Windows ở cương vị phần mềm khách. Bạn có thể cài đặt VMware trên máy tính và dùng nó để chạy một hệ điều hành khác. Khi xong việc, bạn chỉ cần tắt nó đi. Hệ điều hành này và mọi thứ bạn đã làm trong đó sẽ biến mất. Tuy nhiên, các file mà bạn lưu lại vẫn sẽ ở nguyên tại vị trí mà bạn đã lưu.
Tuy nhiên, một điều cần cảnh giác ở đây là các nhà tiếp thị cũng như hacker tội phạm đều biết thông tin về khách truy cập website thông qua file hình ảnh 1 pixel, hay còn gọi là bọ web (web bug). Giống như một cửa sổ pop-up[59] trống trên trình duyệt, đây là một hình ảnh có kích cỡ 1 x 1 pixel được đặt ở đâu đó trên một website, và tuy vô hình nhưng truy vấn lại cho website của bên thứ ba đã đặt nó ở đó. Máy chủ đầu cuối ghi lại địa chỉ IP đã cố gắng hiển thị hình ảnh đó. Hình ảnh 1 pixel đặt ở một website về sức khỏe có thể thông báo cho một hãng dược phẩm biết rằng tôi quan tâm đến các cách chữa trị nấm da chân.
[59] Cửa sổ pop-up (pop-up window): Cửa sổ đột nhiên xuất hiện (pop-up) khi bạn ấn vào một phím chức năng nào đó.
Nghiên cứu năm 2015 mà tôi nhắc tới từ đầu chương này phát hiện ra rằng gần một nửa các truy vấn của bên thứ ba chỉ hiển thị các cửa sổ pop-up không chứa bất kỳ nội dung nào. Các cửa sổ “trống” này âm thầm tạo ra các truy vấn http tới máy chủ của bên thứ ba vốn chỉ dùng cho mục đích theo dõi. Bạn có thể tránh điều này bằng cách đặt lệnh yêu cầu trình duyệt không cho phép hiển thị cửa sổ pop-up (và điều này cũng sẽ loại bỏ những quảng cáo phiền toái đó).
Theo nghiên cứu trên, gần một phần ba số truy vấn còn lại của bên thứ ba có chứa các dòng mã nhỏ, các file JavaScript, vốn chỉ thực thi các hình động trên website. Thông thường, website có thể xác định được máy tính truy cập vào nó bằng cách đọc địa chỉ IP đang yêu cầu file JavaScript.