Về cơ bản, khai thác dữ liệu là về xử lý dữ liệu và phân biệt các mẫu mã và các xu thế trong thông tin đó để chúng ta cũng có thể quyết định hoặc tấn công giá. Những nguyên tắc khai phá dữ liệu đã được sử dụng nhiều năm rồi, tuy nhiên với sự thành lập của big data (dữ liệu lớn), này lại càng thịnh hành hơn.

Bạn đang xem: Khai phá dữ liệu là gì

Big data gây nên một sự bùng nổ về thực hiện nhiều kỹ thuật khai phá dữ liệu hơn, một phần vì kích cỡ thông tin béo hơn không hề ít và vì tin tức có xu hướng đa dạng chủng loại và không ngừng mở rộng hơn về chính bản chất và ngôn từ của nó. Với những tập hợp dữ liệu lớn, để nhận thấy số liệu thống kê tương đối đơn giản và dễ dàng và tiện lợi trong khối hệ thống vẫn chưa đủ. Với 30 hoặc 40 triệu phiên bản ghi thông tin người tiêu dùng chi tiết, việc biết rằng 2 triệu khách hàng trong số đó sống tại một vị trí vẫn không đủ. Bạn muốn biết liệu 2 triệu người tiêu dùng đó bao gồm thuộc về một đội tuổi rõ ràng không với bạn có muốn biết thu nhập cá nhân trung bình của mình để chúng ta cũng có thể tập trung vào các yêu cầu của khách hàng của bản thân mình tốt hơn.

Những yêu cầu hướng kinh doanh này đã chuyển đổi cách lấy ra và những thống kê dữ liệu đơn giản dễ dàng sang việc khai thác dữ liệu phức hợp hơn. Vụ việc kinh doanh hướng về việc chú ý dữ liệu sẽ giúp xây dựng một quy mô để mô tả những thông tin mà lại cuối cuộc sẽ dẫn tới việc tạo ra báo cáo kết quả. Hình dưới đây phác thảo quá trình này.

*

Quá trình đối chiếu dữ liệu, tò mò dữ liệu với xây dựng mô hình dữ liệu thường lặp lại khi chúng ta tập trung vào và nhận biết các thông tin khác biệt để bạn có thể trích ra. Bạn cũng yêu cầu hiểu cách tùy chỉnh cấu hình quan hệ, ánh xạ, phối hợp và phân cụm tin tức đó với tài liệu khác để tạo thành kết quả. Vượt trình nhận biết dữ liệu mối cung cấp và các định dạng nguồn, rồi ánh xạ tin tức đó tới kết quả đã cho của shop chúng tôi có thể thay đổi sau khi chúng ta phát hiện ra các yếu tố và những khía cạnh khác biệt của dữ liệu.

Các công cụ khai thác dữ liệu

Khai phá dữ liệu chưa hẳn là tất cả về các công cầm cố hay ứng dụng cơ sở tài liệu mà nhiều người đang sử dụng. Bạn cũng có thể thực hiện khai phá dữ liệu bởi các hệ thống cơ sở dữ liệu thông thường và những công cụ solo giản, bao gồm việc tạo thành và viết phần mềm riêng của công ty hoặc sử dụng các gói phần mềm bán ko kể cửa hàng. Khai thác dữ liệu phức hợp được hưởng thụ từ kinh nghiệm tay nghề trong quá khứ và các thuật toán đã tư tưởng với phần mềm và các gói ứng dụng hiện có, với các công thế nhất định nhằm thu được một mối quan hệ hoặc uy tín to hơn bằng những kỹ thuật khác nhau.

Gần đây những tập vừa lòng dữ liệu rất cao và việc xử lý tài liệu theo cụm và quy mô lớn bao gồm thể có thể chấp nhận được khai phá dữ liệu để bố trí và lập report về những nhóm và những mối đối sánh của dữ liệu phức hợp hơn. Hiện thời đã gồm sẵn không hề ít công nạm và khối hệ thống hoàn toàn mới, có các khối hệ thống lưu trữ và xử lý tài liệu kết hợp.Bạn hoàn toàn có thể khai phá dữ liệu với rất nhiều tập hợp dữ liệu khác nhau, gồm những cơ sở dữ liệu SQL truyền thống, tài liệu văn bản thô, những kho khóa/giá trị và những cơ sở tài liệu tài liệu. Những cơ sở tài liệu có phân cụm, như Hadoop, Cassandra, CouchDB với Couchbase Server, tàng trữ và cung cấp quyền truy vấn vào dữ liệu theo cách không cân xứng với cấu tạo bảng truyền thống.

Đặc biệt, định dạng tàng trữ cơ sở dữ liệu tài liệu linh hoạt hơn lại gây ra một trung tâm và sự phức hợp khác về xử lý thông tin. Các cơ sở dữ liệu SQL áp để các cấu trúc chặt chẽ và chắc nịch vào lược đồ, làm cho việc truy vấn vấn bọn chúng và phân tích tài liệu trở nên dễ dàng và đơn giản theo quan điểm làm rõ định dạng và kết cấu thông tin.

Các cơ sở tài liệu tài liệu, có một tiêu chuẩn chỉnh chẳng hạn như cấu trúc thực thi JSON hoặc những tệp có cấu tạo đọc được bằng máy vi tính nào đó, cũng dễ xử trí hơn, tuy nhiên chúng hoàn toàn có thể làm tăng lên sự tinh vi do kết cấu khác nhau với hay nỗ lực đổi. Ví dụ, với việc xử lý dữ liệu trọn vẹn thô của Hadoop, có thể phức tạp để nhận ra và trích ra nội dung trước lúc bạn bắt đầu xử lý và tương quan với nó.

Các nghệ thuật chính

Một số chuyên môn cốt lõi, được áp dụng trong khai phá dữ liệu, biểu hiện kiểu hoạt động khai phá và chuyển động phục hồi dữ liệu. Thật không may là các công ty và các phương án khác nhau chưa hẳn lúc nào thì cũng dùng chung những thuật ngữ. Chính những thuật ngữ này rất có thể làm tăng thêm sự mơ hồ với sự phức tạp.

Hãy coi xét một số kỹ thuật thiết yếu và ví dụ về cách sử dụng những công cụ khác nhau để dựng lên việc khai phá dữ liệu.

Sự kết hợp

Sự kết hợp (hay mối quan hệ) chắc rằng là kỹ thuật khai phá dữ liệu được nghe biết nhiều hơn, số đông quen nằm trong và solo giản. Ở đây, bạn tiến hành một sự tương quan dễ dàng giữa hai hoặc nhiều mục, thường cùng kiểu để nhận ra các mẫu. Ví dụ, lúc theo dõi thói quen mua sắm của người dân, chúng ta cũng có thể nhận biết rằng một quý khách hàng luôn tải kem khi họ sở hữu dâu tây, nên chúng ta cũng có thể đề xuất rằng lần tới khi họ download dâu tây, chúng ta cũng hoàn toàn có thể muốn mua kem.

Việc xây dựng những công cụ khai thác dữ liệu dựa trên sự phối kết hợp hay mọt quan hệ hoàn toàn có thể thực hiện dễ dàng bằng những công nạm khác nhau. Ví dụ, trong InfoSphere Warehouse một trình hướng dẫn đưa ra các cấu hình của một luồng thông tin được thực hiện kết hợp bằng cách xem xét tin tức nguồn đầu vào của cửa hàng dữ liệu, thông tin về đại lý ra ra quyết định và thông tin đầu ra của bạn. Hình 2 cho thấy thêm một lấy một ví dụ của cơ sở dữ liệu ví dụ mẫu.

*

Sự phân loại

Bạn có thể sử dụng sự phân các loại để xuất bản một ý tưởng về hình dạng khách hàng, kiểu sản phẩm hoặc phong cách đối tượng bằng phương pháp mô tả những thuộc tính để phân biệt một lớp nạm thể. Ví dụ, chúng ta có thể dễ dàng phân loại những xe ô tô thành các kiểu xe không giống nhau (xe mui kín, 4x4, xe hoàn toàn có thể bỏ mui) bằng cách xác định những thuộc tính khác nhau (số khu vực ngồi, kiểu dáng xe, các bánh xe pháo điều khiển). Với một cái xe mới, bạn cũng có thể đặt nó vào một trong những lớp thế thể bằng phương pháp so sánh các thuộc tính với tư tưởng đã biết của bọn chúng tôi. Chúng ta cũng có thể áp dụng các nguyên tắc tương tự ấy cho các khách hàng, ví dụ bằng phương pháp phân loại khách hàng theo độ tuổi cùng nhóm xã hội.

Hơn nữa, bạn cũng có thể sử dụng việc phân nhiều loại như một mối cung cấp cấp, hoặc như là là công dụng của các kỹ thuật khác. Ví dụ, bạn có thể sử dụng các cây quyết định để xác định một bí quyết phân loại. Vấn đề phân nhiều sẽ cho phép bạn sử dụng các thuộc tính bình thường theo các cách phân loại khác biệt để phân biệt các cụm.

Việc phân nhiều (Clustering)

Bằng bí quyết xem xét một hay các thuộc tính hoặc các lớp, bạn cũng có thể nhóm những phần dữ liệu riêng lẻ với nhau để chế tạo thành một ý kiến cấu trúc. Ở mức đơn giản, việc phân các đang sử dụng một hoặc những thuộc tính có tác dụng cơ sở cho bạn để nhận ra một nhóm các kết quả tương quan. Câu hỏi phân cụm giúp để nhận biết các thông tin không giống nhau vì nó đối sánh tương quan với những ví dụ khác, nên chúng ta có thể thấy ở chỗ nào có đa số điểm tương đương và các phạm vi phù hợp.

Xem thêm: Review Ngôi Làng Tử Khí : Ám Ảnh Tột Độ Với Câu Chuyện Có Thật Về

Việc phân cụm có thể làm theo hai cách. Bạn có thể giả sử rằng bao gồm một cụm ở một điểm nhất định và tiếp đến sử dụng các tiêu chí nhận dạng của cửa hàng chúng tôi để xem liệu chúng ta có đúng không. Đồ thị vào Hình 3 là 1 trong ví dụ hay. Trong lấy một ví dụ này, một ví dụ chủng loại về dữ liệu sale so sánh tuổi của người sử dụng với quy mô cung cấp hàng. Thật phải chăng khi thấy rằng những người ở giới hạn tuổi hai mươi (trước lúc kết hôn với còn nhỏ), ở độ tuổi năm mươi và sáu mươi (khi không hề con mẫu ở nhà), có không ít tiền tiêu hơn.

*

Trong lấy ví dụ như này, chúng ta có thể nhận ra hai cụm, một cụm bao phủ nhóm 2.000 Đô la Mỹ/ 20-30 tuổi và một các ở team 7.000-8.000 Đô la Mỹ/ 50-65 tuổi. Trong trường thích hợp này, cửa hàng chúng tôi đã đưa thuyết hai cụm và đã chứng tỏ giả thuyết của shop chúng tôi bằng một thứ thị dễ dàng và đơn giản mà công ty chúng tôi có thể tạo ra ra bằng phương pháp sử dụng ngẫu nhiên phần mềm đồ vật họa phù hợp nào để có được ánh nhìn nhanh chóng. Những quyết định tinh vi hơn cần phải có một gói phần mềm phân tích đầy đủ, nhất là nếu bạn có nhu cầu các quyết định auto dựa vào thông tin ở kề bên gần nhất.

Việc vẽ vật thị phân cụm theo phong cách này là 1 trong ví dụ dễ dàng và đơn giản về cái gọi là nhận thấy sự lân cận gần nhất. Bạn có thể nhận ra các người sử dụng riêng lẻ bằng sự gần cận theo nghĩa đen của mình với nhau trên vật thị. Có khá nhiều khả năng là các quý khách trong thuộc một cụm cũng cần sử dụng chung những thuộc tính không giống và chúng ta cũng có thể sử dụng sự muốn đợi đó sẽ giúp hướng dẫn, phân loại và nếu không thì phân tích những người khác trong tập hợp dữ liệu của bạn.

Bạn cũng rất có thể áp dụng việc phân các theo ý kiến ngược lại; nhờ vào một số ở trong tính đầu vào, chúng ta cũng có thể nhận ra những tạo phẩm khác nhau. Ví dụ, một nghiên cứu vừa mới đây về các số sạc pin 4-chữ số đã tìm ra những cụm giữa các chữ số trong phạm vi 1-12 và 1-31 cho các cặp thứ nhất và máy hai. Bằng phương pháp vẽ những cặp này, chúng ta cũng có thể nhận ra và xác định các cụm tương quan đến tháng ngày (các ngày sinh nhật, các ngày kỷ niệm).

Dự báo

Dự báo là một trong chủ đề rộng và đi từ dự đoán về lỗi của các thành phần hay sản phẩm móc đến việc phân biệt sự ăn gian và thậm chí là cả đoán trước về lợi nhuận của doanh nghiệp nữa. Được thực hiện kết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo tất cả có việc phân tích những xu hướng, phân loại, so khớp mẫu và côn trùng quan hệ. Bằng cách phân tích những sự kiện hoặc những cá thể trong thừa khứ, bạn có thể đưa ra một đoán trước về một sự kiện.

Khi sử dụng nghĩa vụ và quyền lợi thẻ tín dụng, chẳng hạn, chúng ta có thể kết hợp phân tích cây quyết định của những giao dịch riêng biệt trong thừa khứ với việc phân nhiều loại và những sự so khớp mẫu lịch sử để phân biệt liệu một thanh toán giao dịch có gian lận hay không. Rất có thể là việc thực hiện một sự so khớp giữa những việc mua vé những chuyến bay đến Mỹ và các giao dịch trên Mỹ cho thấy thêm giao dịch này hợp lệ.

Các chủng loại tuần tự

Thường được sử dụng trên các dữ liệu lâu năm hạn, các mẫu tuần tự là 1 trong những phương pháp có lợi để nhận biết các xu thế hay các sự xuất hiện thêm thường xuyên của những sự kiện tương tự. Ví dụ, với tài liệu khách hàng, chúng ta cũng có thể nhận ra rằng các quý khách hàng cùng nhau thiết lập một tủ đựng đồ riêng lẻ về các thành phầm tại những thời điểm khác nhau trong năm. Vào một ứng dụng giỏ hàng, bạn có thể sử dụng thông tin này để tự động hóa đề xuất rằng một số sản phẩm nào này được thêm vào trong 1 giỏ sản phẩm dựa trên tần suất và lịch sử hào hùng mua hàng trong vượt khứ của các khách hàng.

Các cây quyết định

Liên quan đến phần lớn các kỹ thuật khác (chủ yếu ớt là phân các loại và dự báo), cây quyết định rất có thể được sử dụng hay như là là một phần trong các tiêu chuẩn lựa lựa chọn hoặc để cung cấp việc áp dụng và lựa chọn tài liệu cụ thể phía bên trong cấu trúc tổng thể. Trong cây quyết định, bạn bắt đầu bằng một câu hỏi đơn giản có hai câu trả lời (hoặc đôi khi có rất nhiều câu trả lời hơn). Từng câu trả lời lại dẫn mang lại thêm một câu hỏi nữa để giúp phân các loại hay phân biệt dữ liệu sao cho rất có thể phân loại tài liệu hoặc sao cho rất có thể thực hiện đoán trước trên đại lý mỗi câu trả lời.

*

Các cây ra quyết định thường được thực hiện cùng cùng với các hệ thống phân loại liên quan đến thông tin có dạng hình thuộc tính cùng với các hệ thống dự báo, nơi những dự báo khác nhau có thể dựa trên kinh nghiệm lịch sử trong thừa khứ sẽ giúp hướng dẫn cấu trúc của cây ra quyết định và kết quả đầu ra.

Các tổ hợp

Trong thực tế, thật thảng hoặc khi bạn sẽ sử dụng một kỹ thuật trong những những kỹ thuật đơn nhất này. Vấn đề phân các loại và phân cụm là phần nhiều kỹ thuật tương đương nhau. Nhờ áp dụng việc phân cụm để nhận biết các thông tin bên cạnh gần nhất, chúng ta có thể tiếp tục tinh chỉnh và điều khiển việc phân một số loại của mình. Thông thường, cửa hàng chúng tôi sử dụng những cây quyết định sẽ giúp xây dựng và nhận thấy các các loại mà chúng tôi có thể theo dõi bọn chúng trong một thời hạn dài để nhận thấy các trình trường đoản cú và các mẫu.

Xử lý (bộ nhớ) dài hạn

Trong tất cả các phương thức cốt lõi, thường xuyên có lý do để lưu lại thông tin và khám phá từ thông tin. Trong một số kỹ thuật, việc này trọn vẹn rõ ràng. Ví dụ, cùng với việc tìm hiểu các chủng loại tuần tự cùng dự báo, các bạn xem xét lại dữ liệu từ khá nhiều nguồn và nhiều cá thể tin tức để desgin một mẫu.

Trong một số kỹ thuật khác, quá trình này có thể rõ ràng hơn. Những cây quyết định ít lúc được xây cất một lần với không khi nào được coi nhẹ. Khi nhận thấy thông tin mới, những sự kiện và các điểm dữ liệu, rất có thể cần gây ra thêm các nhánh hoặc thậm chí toàn thể các cây mới, để đương đầu với những thông tin xẻ sung.

Bạn gồm thể tự động hoá một vài bước của quá trình này. Ví dụ, câu hỏi xây dựng một mô hình dự báo để nhận thấy sự gian lận thẻ tín dụng thanh toán là phát hành các tỷ lệ để bạn cũng có thể sử dụng cho thanh toán hiện tại và sau đó update mô hình kia với những giao dịch mới (đã được phê duyệt). Rồi tin tức này được ghi lại sao cho có thể đưa ra ra quyết định một cách lập cập trong lần tới.

Kết luận

Việc khai phá dữ liệu còn hơn vấn đề chạy một số trong những truy vấn phức hợp trên dữ liệu mà chúng ta đã lưu giữ trong cơ sở tài liệu của mình. Chúng ta phải làm việc với tài liệu của mình, định dạng lại nó hoặc cấu tạo lại nó, bất kỳ bạn tất cả đang thực hiện SQL, các đại lý dữ liệu dựa vào tài liệu như Hadoop hoặc những tệp phẳng đơn giản dễ dàng hay không. Việc nhận biết định dạng tin tức mà bạn rất cần phải dựa trên chuyên môn và việc phân tích mà bạn muốn làm. Sau khi chúng ta có tin tức theo định dạng mà các bạn cần, chúng ta cũng có thể áp dụng các kỹ thuật khác (riêng lẻ hay kết hợp lại với nhau) ko phân biệt cấu trúc dữ liệu cơ phiên bản hay tập hợp dữ liệu cần thiết.