Năm 2016, 11,5 triệu tư liệu mật của bạn Panama Mossack Fonseca bị rò rỉ mang lại thấy, thông tin chi tiết của rộng 214 ngàn doanh nghiệp “ma” được thành lập và hoạt động để trốn thuế, bao gồm cả danh sách của những cổ đông và những giám đốc. Trong các danh sách này có nhiều nhà bao gồm trị và những tổ chức nhiều có, các thế lực của không ít quốc gia. Cả thế giới chấn động, tuy nhiên ít tín đồ biết là để xử lý khối tài liệu đẩy đà này, giới báo mạng đã yêu cầu tiếp cận với technology số hiện nay đại, mà thời buổi này người ta điện thoại tư vấn là technology Dữ liệu lớn.

Bạn đang xem: Hồ sơ panama là gì

*
Biếm họa về vụ làm hồ sơ Panama. Giới media (Media) sẽ soi rọi các tài liệu về bài toán trốn thuế (Tax evasion) Tranh của Paresh trên The Khaleej Times, Dubai

* cầm tắt về hồ sơ Panama

Hồ sơ Panama là gì? Là lượng tài liệu mật mập mạp tiết lộ cách thức những người giàu sang và quyền lực giấu gia tài của họ.

Hồ sơ Panama tới từ đâu? Ai máu lộ? Đến trường đoản cú cơ sở tài liệu nội bộ của doanh nghiệp luật Mossack Fonseca của Panama, nhà cung cấp dịch vụ gia sản ở quốc tế lớn thứ tứ thế giới. Mossack Fonseca hoạt động hợp pháp nhưng luôn bị cho là chuyên cung ứng ngầm những dịch vụ cọ tiền, trốn thuế. Nhân vật tiết lộ Hồ sơ Panama lấy túng thiếu danh “John Doe” nói rằng chưa từng thao tác cho một ban ngành tình báo tuyệt cơ quan chính phủ nước nhà và chính vì sự bất đồng đẳng thu nhập đã tạo động lực thúc đẩy người này chia sẻ tài liệu mật. Tài liệu được chuyển mang lại Liên đoàn Phóng viên khảo sát quốc tế (ICIJ) và tổ chức triển khai này đã phân phối đến khoảng chừng 400 những nhà báo trên 107 tổ chức media tại rộng 80 quốc gia để phân tích.

Có gì trong các tài liệu? trong các tài liệu có: thông tin các giao dịch chuyển tiền mặt, ngày thành lập các công ty, link giữa các công ty cùng cá nhân, cách thức giúp người tiêu dùng rửa tiền, tránh những biện pháp trừng phạt và trốn thuế.

* Hồ sơ Panama lớn đến cỡ nào?

Hồ sơ Panama có 11,5 triệu tài liệu tương quan đến 214 nghìn công ty, chiếm phần một dung lượng lên mang đến 2,6TB (tức 2.600GB). Những tài liệu này sẽ không đơn thuần là 1 trong những loại dữ liệu mà bao hàm nhiều định dạng khác nhau như: e-mail, các tập tin PDF, hình hình ảnh và những trích dẫn xuất phát từ một cơ sở tài liệu nội cỗ hãng Mossack Fonseca. Những tài liệu trải nhiều năm từ những năm 1970 đến mùa xuân năm 2016, bao hàm 4.804.618 email, 3.047.306 tập tin từ các đại lý dữ liệu, 2.154.264 tập tin PDF, 1.117.026 hình ảnh, 320.166 tập tin văn bản, cùng 2.242 tập tin trong số định dạng khác.

Dung lượng tài liệu rò rỉ này lớn hơn hẳn các trường phù hợp rò rỉ trước đây. Báo Guardian (Anh) đã dùng hình hình ảnh minh họa sau để cho biết thêm lượng tài liệu của làm hồ sơ Panama to hơn không ít so cùng với dữ liệu những vụ rò rỉ thông tin khác.

Người ta ước tính rằng, nếu một tín đồ ngồi xem cho hết các tài liệu này đang mất 30 năm. Ấy là chỉ xem một lượt tất cả các tư liệu chứ không tồn tại nhận định so với gì cả! Trên thực tiễn có đến 376 bên báo thuộc 110 công ty đối tác truyền thông của 80 nước thuộc tham gia cách xử trí tài liệu này, tuy thế cũng không thể xử trí nổi trọng lượng dữ liệu khổng lồ bằng những phương pháp quen thuộc. Phải bắt buộc đến thiết bị tính!

*
Trong hình, lượng tài liệu của những vụ rò rỉ không giống được thể hiện bởi diện tích những ô bé dại màu sáng, lượng tài liệu của làm hồ sơ Panama bằng toàn cục diện tích phần còn lại

Thế mà lại có máy tính xách tay cũng chưa hẳn đã giải quyết và xử lý được vấn đề. Những chương trình xử lý tài liệu trên máy tính xách tay thường chỉ xử lý các dữ liệu thuần nhất, nhưng các dữ liệu tại đây vừa nhiều vừa đa dạng. Những khối dữ liệu có kết cấu khác nhau đã là phức hợp rồi, lại còn chủng loại không giống nhau nữa (mail, file PDF, hình ảnh…). Đây chính là đặc thù của tài liệu lớn.

Vậy những nhà báo sẽ làm như thế nào? bọn họ hãy xem lời nói của 2 đơn vị báo thâm nhập chiến dịch là Jérémie Baruch và Maxime Vaudano, nhà báo tài liệu của tờ Decodeurs, đăng trên tờ Le Monde (Pháp) mon 4-2016.

* Họ đã làm vậy nào? Lời nói của Jérémie Baruch và Maxime Vaudano:

Cần phải bao gồm một lý lẽ tìm kiếm tất cả hiệu năng cao để khám phá các các đại lý dữ liệu. Đội ngũ chuyên môn của ICIJ đã có sẵn một công cụ mạnh mẽ mẽ, dựa trên hệ thống Solr và được cách tân dành đến chiến dịch này. Hệ thống có đều toán tử kiếm tìm kiếm tiên tiến và phát triển (“AND”, “OR”, kiếm tìm kiếm cùng với độ chính xác cao phần đông từ trong dấu ngoặc kép) và một khối hệ thống các “cửa sổ nhỏ” để sàng lọc hàng ngàn kết quả mà một trong những cuộc search kiếm đã tạo thành nhờ những siêu tài liệu (dạng văn bản, ngày sản xuất văn bản, doanh nghiệp liên kết). Khối hệ thống cũng có thể chấp nhận được trích xuất văn phiên bản thô từ hàng chục định dạng tập tin, từ dạng văn bạn dạng .PDF đến dạng văn bản .DOC, qua dạng văn bạn dạng .MSG (dạng thư năng lượng điện tử lắp với Microsoft Outlook).

Xem thêm: Ảnh Anime Đẹp Hiếm Nhất Thế Giới Mà Fan Không Nên Bỏ Lỡ, Tổng Hợp Ảnh Anime Đẹp Hiếm Và Hình Ảnh Con Người

Nhưng bên trên hết, giải pháp được máy một nguyên lý tìm kiếm gần đúng (fuzzy search) được cho phép tìm kiếm thoáng hơn. Ví dụ search “Jean Dupont” sẽ đã cho ra cả “Dupont Jean” xuất xắc “Jean Edouard Michel Dupont”.

Mặc cho toàn bộ tính năng này, chúng tôi đã phải đương đầu những tiêu giảm về cấu trúc liên quan lại đến thực chất thông tin “rò rỉ”. Có khá nhiều tài liệu mà bạn dạng gốc không dưới đa số dạng nhưng mà máy tính rất có thể hiểu được (như bên dưới dạng scan, hình ảnh) đang được xử lý qua một hệ thống nhận dạng ký tự quang học tập (OCR) của ICIJ. Chuyên môn này dù giỏi đến đâu cũng có thể có nguy cơ bỏ lỡ những từ ghi nhận sai, như chữ viết tay hoặc bạn dạng scan kém hóa học lượng.

Những lỗi bao gồm tả hoặc chuyển ngữ âm không nên tên các cá nhân có thể làm cho những nhân vật dụng đó thoát khỏi sự phát hiện tại của chúng tôi. Chưa kể đến vấn đề dịch thuật từ các chiếc tên giờ Nga hay china được viết theo bảng vần âm Kirin tốt chữ tượng hình…

Sau quá trình thăm dò trước tiên các dữ liệu mang ý nghĩa lộn xộn, chúng tôi đã phải phải chăng hóa công việc tìm tìm để đảm bảo an toàn không quăng quật qua những cái tên quan lại trọng. Về sự việc này, tổ chức triển khai ICIJ trong quá trình thực hiện dự án công trình đã cải cách và phát triển một phép tắc tìm kiếm theo khối (batch search). Thay do tìm tìm từng cái thương hiệu một, thì bạn cũng có thể đưa vào mức sử dụng tìm kiếm một list có cấu trúc những loại tên. Sau một vài phút, biện pháp sẽ cho ra một bảng kết quả dưới định dạng .CSV, bao gồm chứa tất cả những lần lộ diện được tìm thấy đối với mỗi mục nhập của danh sách. Phần sót lại là lựa chọn “gạo cùng với trấu” như đối với mọi luật pháp tìm kiếm.

Chúng tôi còn dùng vô số cách khác để tìm ra danh sách những người đáng quan lại tâm. Với 214.488 công ty “ma” search được, gồm trên 450 ngàn cổ đông, vớ cả đều sở hữu một add bưu điện tương ứng. Với ứng dụng xử lý tài liệu OpenRefine, shop chúng tôi đã “làm sạch” và bằng vận các địa chỉ này nhằm trích xuất list cổ đông phải thiết, kế tiếp sử dụng một giải pháp có khối hệ thống công gắng tìm kiếm Google để phát hiện nay ra hầu như nhân vật có công dụng là quan tiền trọng.

Sự phức tạp của đều dàn dựng nghỉ ngơi nước ngoài, với tương đối nhiều công ty bình phong lồng trong nhau tựa như các con búp bê Nga, đã làm cho các bước lần theo vết vết của rất nhiều người thụ tận hưởng thực siêu vất vả. Vày vậy, ICIJ đã cung cấp cho các đối tác doanh nghiệp truyền thông một quy định hiển thị bởi đồ thị, Linkurious, sẽ giúp thăm dò các cơ sở dữ liệu được dễ dàng dàng. Vắt thể, chế độ này đã links 4 thực thể không giống nhau mang tên trong phần “có cấu trúc” của thông tin rò rỉ: những công ty, những trung gian, các cổ đông và địa chỉ của họ. Nó có thể chấp nhận được thực hiện hầu hết tìm kiếm nhanh và trực quan về những thực thể này.

* Sự khởi đầu của khảo sát báo chí vào thời đại technology 4.0

Trên đây chỉ là 1 phần lời nói của 2 nhà báo về những công việc mà họ đang phải thực hiện để khám phá về làm hồ sơ Panama. Jérémie Baruch và Maxime Vaudano, sau khi kể lại hầu hết điều đã trải qua, kết luận: Đây là sự mở đầu của các gì hoàn toàn có thể là bước tiếp theo sau của khảo sát báo chí với việc hỗ trợ của máy tính: việc sử dụng một bí quyết có hệ thống các công cụ tài liệu lớn, điều mà tới thời điểm này còn số lượng giới hạn trong lĩnh vực nghiên cứu cùng doanh nghiệp, và vẫn còn đấy rất xa lạ với giới truyền thông.

Còn chủ tịch của tờ Le Monde thì viết trong bài bác xã luận của mình: Đối mặt với sự thay đổi của cuộc điều tra sang thời đại tài liệu lớn là việc 110 đối tác truyền thông tham gia cuộc điều tra đã đề nghị từ vứt cuốn sổ tay bỏ túi và cây cây bút chì để áp dụng những pháp luật điện toán tiên tiến.

Cuộc giải pháp mạng công nghiệp 4.0 cùng với những công nghệ nổi trội của chính nó là Trí tuệ nhân tạo (AI), tài liệu lớn (Big Data) đang tác động đến tất cả mọi lĩnh vực, ngành nghề, trong những số ấy có giới truyền thông. Mẩu truyện về hồ sơ Panama là một minh bệnh sống động.