ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP NGÀNH GIAO THÔNG VẬN TẢI

Tìm thấy 10,000 tài liệu liên quan tới từ khóa "ỨNG DỤNG THỬ NGHIỆM KHAI PHÁ DỮ LIỆU TÍCH HỢP NGÀNH GIAO THÔNG VẬN TẢI":

Nâng cao chất lượng cho các thiết bị định vị dẫn đường sử dụng GPS phục vụ bài toán giám sát quản lý phương tiện giao thông đường bộ

NÂNG CAO CHẤT LƯỢNG CHO CÁC THIẾT BỊ ĐỊNH VỊ DẪN ĐƯỜNG SỬ DỤNG GPS PHỤC VỤ BÀI TOÁN GIÁM SÁT QUẢN LÝ PHƯƠNG TIỆN GIAO THÔNG ĐƯỜNG BỘ

Tính cấp thiết và lý do chọn đề tài
Hiện nay ngoài các ứng dụng trong quân sự, hệ thống định vị toàn cầu GPS
đƣợc sử dụng trong nhiều ngành, nhiều lĩnh vực hoạt động phục vụ con ngƣời. Chỉ nói
riêng trong ngành giao thông đã có nhiều ứng dụng quan trọng của GPS nhƣ: Tự động
định vị phƣơng tiện giao thông AVL (Automatic Vehicle Location); Tự động dẫn
đƣờng các phƣơng tiện giao thông AGV (Automatic Guided Vehicle). Tại Việt nam
việc nghiên cứu ứng dụng kỹ thuật GPS đã đƣợc triển khai và có những thành công
nhất định trong lĩnh vực địa chính, bản đồ, quản lý giám sát phƣơng tiện giao thông. Trong xu hƣớng hiện đại hoá ngành giao thông vận tải có thể nói việc đƣa vào sử
dụng GPS là điều tất yếu do những ƣu điểm nổi bật về tính hiệu quả và giá thành ngày
càng giảm. Yêu cầu đặt ra là ngoài việc xác định chính xác vị trí và tốc độ chính xác
theo thời gian, thiết bị cần giám sát liên tục các thông số về trạng thái chuyển động
của đối tƣợng nhƣ khoảng di chuyển, góc hƣớng, gia tốc, độ nghiêng, độ cao. Đây là
những yếu tố mà các thiết bị trong hệ thống giám sát hiện tại chƣa đƣợc tích hợp.
Các thiết bị giám sát hành trình tại Việt Nam cho phƣơng tiện giao thông
đƣờng bộ hiện tại chỉ sử dụng hệ thống GPS. Tính đến thời điển này các thiết bị
MEMS INS 9-DOF hiện đại có giá thành rất rẻ, cỡ 30 euro/1 thiết bị, có chất lƣợng
tốt. Do đó việc tích hợp INS trong hệ thống giám sát hành trình sử dụng GPS là việc
nên làm và sẽ dần trở thành chuẩn thiết bị. Ngoài tính năng hỗ trợ cho hệ thống GPS,
hệ thống INS còn cung cấp thêm các thông số đặc trƣng cho chuyển động, qua đó
nâng cao chất lƣợng hệ thống giám sát.
4. Mục đích, đối tƣợng, phạm vi nghiên cứu và kết quả mong đợi của luận án
Luận án nghiên cứu ứng dụng các công nghệ mới để thiết kế chế tạo thiết bị
nhằm nâng cao chất lƣợng cho các thiết bị định vị dẫn đƣờng sử dụng GPS phục vụ
bài toán giám sát quản lý phƣơng tiện giao thông đƣờng bộ. Yêu cầu của hệ thống cần
giám sát chính xác vị trí, vận tốc và các tham số thể hiện trạng thái chuyển động của
đối tƣợng. Đáp ứng nhu cầu này, luận án đặt ra nhiệm vụ nghiên cứu các cơ sở khoa
học của GPS và các thiết bị hỗ trợ, trong đó điển hình là hệ thống INS, và đề xuất các
giải pháp tích hợp trên cơ sở cập nhật công nghệ mới nhằm nâng cao chất lƣợng hệ
thống giám sát ứng dụng trong quản lý các phƣơng tiện giao thông đƣờng bộ, cụ thể là
ứng dụng cho xe bus.
Để phục vụ mục đích này, tác giả đã từng bƣớc nghiên cứu cập nhật công nghệ,
các giải pháp tích hợp hệ thống dựa trên công nghệ GPS và công nghệ vi cơ điện tử
MEMS INS, từ đó đề xuất giải pháp tích hợp và xử lý dữ liệu phù hợp. Với mục tiêu
đƣa ra ra giải pháp thiết kế thiết bị tích hợp hai hệ thống GPS và INS ứng dụng cho xe
bus, bao gồm nhiệm vụ thu thập, xử lý dữ liệu gắn trên xe với hệ thống MEMS INS
tiên tiến và xây dựng thuật toán lọc trên cơ sở lọc Kalman để nâng cao độ chính xác
về vận tốc và quỹ đạo chuyển động của xe. Ngoài ra kết quả còn yêu cầu đƣa ra giá trị một số thông số cần giám sát trong suốt quá trình hoạt động về trạng thái dao động,
góc hƣớng, gia tốc, góc nghiêng và độ cao.
Trong trƣờng hợp mất tín hiệu GPS kéo dài hoặc thiết bị chạy trong môi trƣờng
đóng kín nhƣ trong nhà, trong đƣờng hầm hay những khu vực bị che khuất trong một
khoảng thời gian dài, hệ thống tích hợp GPS/INS lúc này chỉ làm việc với tín hiệu INS
và sẽ mất đi khả năng định vị. Luận án nghiên cứu về công nghệ và các thiết bị sử
dụng GPS ứng dụng cho phƣơng tiện giao thông đƣờng bộ, chƣa đề cập tới trƣờng
hợp thiết bị chạy trong môi trƣờng đóng kín hay mất GPS kéo dài.
Kết quả mong đợi của luận án là sẽ kiểm soát đƣợc các sai số tích lũy của INS,
từ đó đƣa ra giải pháp thiết kế thiết bị tích hợp GPS/INS nhằm loại bỏ những sai lệch
quỹ đạo của phƣơng tiện giao thông đƣờng bộ trên cơ sở sử dụng bộ lọc Kalman.
Thiết bị sẽ đƣợc ứng dụng cho hệ thống giám sát xe bus.
4. Bố cục của luận án
Luận án bao gồm phần tổng quan, kết luận, phụ lục và 4 chƣơng chính.
- Tổng quan về bài toán giám sát: Trong phần này luận án đã khái quát đặc
điểm của công nghệ định vị dẫn đƣờng sử dụng GPS và INS, đánh giá các công trình
nghiên cứu liên quan mật thiết đến đề tài luận án đã đƣợc công bố trong và ngoài
nƣớc, tình hình nghiên cứu trên thế giới, tình hình nghiên cứu tại Việt Nam. Tiếp đó
luận án phân tích những hạn chế của những hệ thống hiện tại, những vấn đề còn tồn
tại và định hƣớng giải quyết sử dụng hệ thống tích hợp GPS/INS kết hợp với thuật
toán lọc và hiệu chỉnh dữ liệu.
- Chƣơng 1: Trình bày khái quát về hệ thống GPS và hệ thống INS, bản chất bù
giữa INS – GPS và khái quát về các phƣơng pháp tích hợp GPS/INS. Sau khi khái
quát bài toán áp dụng cho hệ thống điều khiển giám sát quản lý thông vận tải ứng
dụng cho các phƣơng tiện mặt đất, luận án chỉ ra mô hình đƣợc lựa chọn trong luận án
là xe bus với một số thông số yêu cầu cần đƣợc giám sát.
- Chƣơng 2: Trình bày về lọc Kalman và các khái niệm mở rộng, bao gồm lọc
Kalman mở rộng EKF và lọc Kalman dạng UKF. Sau khi khái quát lý thuyết, luận án
mô phỏng các thuật toán lọc dựa trên hệ thống thƣ viện Matlab tool-box [79]. Những kết quả này đƣợc tác giả tiếp tục phát triển với thuật toán hạn biên và tính toán trên
miền rời rạc z-Domain, là đóng góp mới ban đầu của luận án [63, P1.1.4]. Một số
đoạn mã (script) trong thƣ viện này đƣợc phát triển ứng dụng trong phát triển bộ lọc
UKF cho xe bus ở chƣơng 4.
- Chƣơng 3: Giới thiệu và phát triển hoàn thiện giải pháp tự động hiệu chỉnh
ma trận quay R (Rotation matrix), hay còn gọi là cơ chế lọc bổ sung DCM. Sự ra đời
của dòng cảm biến MEMS INS Razor 9-DOF (2012) đã tạo ra một bƣớc tiến đột phá
trong lĩnh vực thiết kế hệ thống tích hợp GPS/INS. Với thiết bị tiên tiến này, luận án
đã phát triển và ứng dụng thành công phƣơng pháp xử lý chống trôi các phần tử của
ma trận quay dựa trên đặc tính trực giao của các vector trên cơ sở cập nhập vecor từ
trƣờng tích hợp. Khác với lọc Kalman xử lý dữ liệu ở bƣớc sau, tức là lấy kết quả đã
bị tích lũy sai số của INS để tính toán, đây là một giải pháp mới trong thiết kế hệ
thống sử dụng MEMS INS bởi khả năng giải quyết vấn đề trôi dữ liệu ở cấp độ đo
lƣờng, hiệu chỉnh dữ liệu thô để tính toán lại các góc quay roll, pitch, yaw của MEMS
INS, từ đó tính toán chính xác hơn giá trị vận tốc, khoảng di chuyển của đối tƣợng rồi
mới đƣa về trạm để tính toán với bộ lọc.
- Chƣơng 4: Phần đầu của chƣơng này khái quát các giải pháp tính tích hợp
GPS/INS trƣớc đây và ứng dụng phƣơng pháp tính toán trên miền rời rạc cho các hệ
thống tích hợp GPS/INS kết hợp bù dữ liệu trên cơ sở nguyên lý mờ [P1.1.12].
Cập nhật công nghệ INS mới, luận án giới thiệu một giải pháp mới trong thiết
kế hệ thống tích hợp GPS/INS trên cơ sở hệ thống phân tán. Xử lý dữ liệu cho hệ
thống tích hợp đƣợc chia thành nhiệm vụ cho thiết bị trên xe (xử lý chống trôi dữ liệu)
với phƣơng pháp hiệu chỉnh các phần tử của ma trận quay R, và nhiệm vụ tại trạm (xử
lý lọc Kalman). Phần phát triển ứng dụng trên hệ thống thực tế dựa trên cơ cở lý
thuyết chƣơng 3, phát triển trên nền tảng hệ thống nhúng Arduino cho thiết bị gắn trên
đối tƣợng chuyển động là xe bus. Để hoàn thiện thuật toán lọc UKF, hệ thống cần
đƣợc cung cấp thêm các thông số khác làm giá trị tham chiếu. Giải pháp trong luận án
này là sử dụng các thông số tham chiếu đƣợc lấy từ bus CAN (chuẩn J1939 FMS) của
xe kết hợp với các thông số từ radar. Với các tham số bổ sung này, luận án đã phát triển thành công thuật toán lọc UKF linh hoạt với hai chế độ hoạt động tùy thuộc tín
hiệu đầu vào, ứng dụng trong thực tế cho đối tƣợng xe bus [P1.1.14].
- Kết luận và kiến nghị.
5. Ý nghĩa khoa học và thực tiễn của luận án
 Ý nghĩa khoa học: Đóng góp giải pháp mới trong tích hợp GPS/INS nhằm cải
thiện chất lƣợng của các thiết bị giám sát phƣơng tiện. Giải pháp không chỉ dừng ở lý
thuyết mà còn đƣa ra đƣợc sản phẩm cụ thể để thử nghiệm, kiểm chứng [P1.1.4,
P1.1.12, P1.1.14].
 Ý nghĩa thực tiễn: Giải pháp và sản phẩm của luận án có thể ứng dụng trong
các hệ thống quản lý, giám sát đối tƣợng giao thông đƣờng bộ [P1.1.14, P1.2.6].
Xem thêm

174 Đọc thêm

MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG PHÂN LỚP DỊCH VỤ WEB

MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG PHÂN LỚP DỊCH VỤ WEB

MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG PHÂN LỚP DỊCH VỤ WEB
Tìm hiểu các thuật toán về phân lớp dữ liệu trong khai phá dữ liệu.
Nghiên cứu, xây dựng tập dữ liệu mẫu về các dịch vụ web để thử nghiệm các thuật toán phân lớp.
Thử nghiệm các thuật toán phân lớp trên phần mềm khai phá dữ liệu để từ đó đánh giá, so sánh các kết quả của các thuật toán phân lớp cho các dịch vụ web.

21 Đọc thêm

Báo cáo bài tập lớn – lý THUYẾT tập THÔ và ỨNG DỤNG – tập THÔ và LUẬT kết hợp

BÁO CÁO BÀI TẬP LỚN – LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG – TẬP THÔ VÀ LUẬT KẾT HỢP

MỤC LỤC
I. LỜI MỞ ĐẦU 2
II. CƠ SỞ LÝ THUYẾT TẬP THÔ LIÊN QUAN 3
1. Khai phá trí thức trong csdl (Knowdlege Discovery in Databases – KDD) 3
2. Tập thô trong khai phá trí thức 3
3. Mô tả các bước khai phá dữ liệu sử dụng lý thuyết tập thô 4
3.1. Hiệu chỉnh dữ liệu: 4
3.2. Rút gọn tập thuộc tính: 4
3.3. Rút trích tập luật: 4
III. KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP 5
1. Tổng quan 5
2. Các khái niệm và công thức thể hiện: 6
2.1. Độ hỗ trợ: 6
2.2. Độ hỗ trợ tối thiểu: (minsupp) 6
2.3. Độ tin cậy: 6
2.4. Độ tin cậy tối thiểu: (minconf) 6
3. Các bước khai phá luật kết hợp 6
4. Thuật toán sinh các luật kết hợp Apriori (ý tưởng của Agrawal and Srikant 1994) 6
4.1. Định nghĩa 6
4.2. Tư tưởng chính của thuật toán Apriori 7
4.3. Trình tự cài đặt thuật toán 7
4.4. Mã giải 10
IV. BÀI TOÁN THỰC TẾ 11
1. TỔNG QUAN BÀI TOÁN ỨNG DỤNG 11
2. GIẢI QUYẾT BÀI TOÁN SỬ DỤNG TẬP THÔ THUẬT TOÁN APRIORI 12
2.1. Bước 1: Chọn bảng thuộc tính ban đầu: 12
2.2. Bước 2: Hiệu chỉnh dữ liệu, rút gọn tập thuộc tính 12
2.3. Bước 3: Rút trích tập luật tìm các tập phổ biến 14
2.4. Bước 4: Dùng các tập phổ biến để tạo ra luật kết hợp 17
2.5. Kết quả cuối cùng 20
3. CÁC HẠN CHẾ CỦA THUẬT TOÁN APRIORI 21
V. KẾT LUẬN 21
VI. TÀI LIỆU THAM KHẢO 21



I. LỜI MỞ ĐẦU
Trong thời gian gần đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương pháp khác với phương pháp logic cổ điển, ví dụ lý thuyết tập mờ (Fuzzy set theory), lý thuyết tập thô (Rough set theory), tính toán hạt (Granular computing) hay phân tích khái niệm hình thức (Formal concept analysis) … Trong các phương pháp này, phương pháp tập thô được nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu và phát triển. Điều này có thể lý giải là do lý thuyết tập thô được xây dựng trên một nền toán học vững chắc, cung cấp những công cụ hữu ích để giải quyết các bài toán phân lớp dữ liệu, phát hiện luật …, đặc biệt là phục vụ cho việc nghiên cứu các hệ thống thông minh, khai phá dữ liệu.
Hiện nay, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập và hiểu được thông tin và hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động. Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng.
Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu… không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê… mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn. Từ đó các nhà quản lý có được thông tin có ích để tác động lại quá trình sản xuất, kinh doanh của mình… đó là tri thức. Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining). Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.
Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng.
Khai phá dữ liệu (Data Mining) được coi là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in DatabaseKDD), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệumẫu (datapattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging).
Xem thêm

22 Đọc thêm

KHAI PHÁ DỮ LIỆU ĐA PHƯƠNG TIỆN

KHAI PHÁ DỮ LIỆU ĐA PHƯƠNG TIỆN

I. LỜI NÓI ĐẦU
1. Lý do chọn đề tài
Ngày nay xuất hiện nhiều loại thiết bị ghi điện tử số như máy quét, microphone, máy ảnh và máy quay cũng như sư phát triển mạnh mẽ của của các bộ nhớ lưu trữ của máy tính và sự phát triển mạnh mẽ của Internet làm cho hệ thống cơ sở dữ liệu đa phương tiện vô cùng lớn và ngày càng tăng gồm: âm thanh, video, hình ảnh, đồ thị, bài phát biểu, văn bản, tài liệu, và dữ liệu siêu văn bản mà gồm văn bản, văn bản đánh dấu, và mối liên kết . . . Vì vậy việc khám phá các tri thức bên trong các cơ sở dữ liệu đa phương tiên này có ý nghĩa rất quan trọng đối với một số lĩnh vực, tổ chức, cũng như một số ứng dụng.
Có ứng dụng rộng rãi trong các lĩnh vức khác nhau gồm:
• Chuẩn đoán y học.
• Dự doán thời tiết.
• Sản xuất TV.
• Phương tiện tìm kiếm hình ảnh trên Web.
• Thương mại điện tử.
• Nghiên cứu thiên văn học.
• Nghiên cứu địa chấn học.
• Nghiên cứu địa chất học.
2. Mục đích
Nghiên cứu về khai phá dữ liệu multimedia và tập trung vào khai phá dữ liệu hình ảnh, hướng dẫn cách thức khai phá dữ liệu multimedia.
3. Nội dụng
• Khai phá dữ liệu đa phương tiện là gì?
• Cách thức khai phá dữ liệu đa phương tiện gồm:
o Tìm kiếm tương tự trong dữ liệu đa phương tiện.
o Phân tích đa chiều của các dữ liệu đa phương tiện.
o Phân loại và dự doán phân tích của dữ liệu đa phương tiện.
o Khai phá các liên kết trong dữ liệu đa phương tiện.
o Khai phá dữ liệu âm thanh và hình ảnh.








II. NỘI DUNG
1. Khai phá dữ liệu đa phương tiện là gì?
Định nghĩa cổ điển của khai phá dữ liệu thì khai phá dữ liệu là tiến trình khám phá thông tin tự động, mà cải thiện đưa ra quyết định và đem lại thuận lợi cho công ty trên thị trường. Các định nghĩa khác thì khai phá dữ liệu là thăm dò và phân tích bằng các phương tiện tự động hay bán tự động của số lượng lớn dữ liệu để khám phá các mẫu và các luật có ý nghĩa. Nó được cho rằng các mẫu và các luật được khám phá là có ý nghĩa cho các doanh nghiệp. Quả thực, khai phá dữ liệu được áp dụng kỷ luật mà làm tăng nhận dạng các mẫu thống kê, học máy, và trí tuệ nhân tạo và được kết hợp với đưa ra quyết định doanh nghiệp để tối ưu hóa và làm tăng việc khai phá dữ liệu. Ban đầu, các kỹ thuật khai phá dữ liệu được áp dụng cho cấu trúc dữ liệu từ cơ sở dữ liệu. Thuật ngữ “khám phá tri thức trong cơ sở dữ liệu” mà trong thời điểm này nó là lỗi thời, phản ánh giai đoạn này. Tuy nhiên, trí thức làm sáng tỏ ý nghĩa dữ liệu và khám phá tri thức vượt xa việc tìm kiếm các mẫu đơn giản và tương quan trong dữ liệu để xác định các khái niện và tìm kiếm các quan hệ. Trí thức dựa trên mô hình tạo nên bức tranh logic nhất quan của thế giới. Trong những năm gần đây thuật ngữ “phân tích dự đoán” đã được sử dụng rộng rãi trong thế giới doanh nghiệp.
Một mặt tăng sức mạnh máy tính thực hiện các công nghệ khai phá dữ liệu hợp lý bởi các công ty nhỏ, nhưng mặt khác, xuất hiện bộ nhớ khủng lồ rẻ tiền và các thiết bị ghi điện tử số, như là máy quét, micro, máy ảnh và máy quay, đã cho phép số hóa tất cả các loại doanh nghiêp, chính phủ và các tài liệu riêng tư. Nhiều công ty xem những tài liệu điện tử này như tài sản giá trị lớn và các nguồn khác của dữ liệu cho khai phá dữ liệu. Ví dụ, thông điệp email từ các khách hàng và các bản ghi cuộc trò chuyện qua điện thoại giữa các khách hàng và các hoạt động có thể phục vụ như nguồn có giá trị của tri thức về cả hai thứ đó là khách hàng cần và chất lượng của dịch vụ. Sự phát triển thông tin mạnh mẽ trên Word Wide Web tạo ra việc khai phá dữ liệu, một nguồn không thể thiếu của dữ liệu cho các nghiệp vụ thông minh. Tuy nhiên, xử lý nguồn mới của thông tin bán cấu trúc( trang Web, tài liệu XML) và phi cấu trúc (văn bản, hình ảnh, âm thanh và video) được yêu cầu phương pháp và công cụ khai phá dữ liệu mới.
Xem thêm

13 Đọc thêm

Tiểu luận Chuyên đề công nghệ phần mềm “Khai phá dữ liệu với Association Rule”

TIỂU LUẬN CHUYÊN ĐỀ CÔNG NGHỆ PHẦN MỀM “KHAI PHÁ DỮ LIỆU VỚI ASSOCIATION RULE”

Mục lục
Chương 1: Giới thiệu đề tài 3
1. Đặt vấn đề 3
2. Mục đích 3
3. Nội dung tiểu luận 4
Chương 2: Association Rule 5
I. Một số khái niệm về data mining 5
1. Khai phá dữ liệu (data mining) 5
2. Các tác vụ khai phá dữ liệu (data mining tasksfunctions) 5
II. Association Rule 7
1. Association Rule 7
2. Một số độ đo 9
3. Tiến trình 10
III. Apriori Algorithm 11
1. Giới thiệu thuật toán 11
2. Thuật tóan 12
3. Ví dụ 14
4. Nhận xét về thuật toán Apriori 17
Tài liệu tham khảo 18


Chương 1: Giới thiệu đề tài
1. Đặt vấn đề
Trong vài thập kỉ gần đây, cùng với sự phát triển của xã hội, khoa học kĩ thuật, sự phát triển của công nghệ thông tin, việc sinh và lưu trữ dữ liệu cũng có nhiều kĩ thuật tiến bộ. Tuy nhiên lượng dữ liệu ngày càng nhiều nên việc lưu trữ trở nên khó khăn hơn và đòi hỏi phương pháp lưu trữ với hiệu quả tốt nhất.Thay vì việc phải lưu trữ một lượng nhiều dữ liệu bao gồm cả dữ liệu có thể không cần thiết, người ta thực hiện quá trình biến đổi dữ liệu thành thông tin có ích hay còn gọi là quá trình khai phá dữ liệu(data mining) để biến dữ liệu thành thông tin hay tri thức phục vụ cho các ứng dụng và loại bỏ được bớt các dữ liệu không cần thiết. Tùy theo loại dữ liệu, loại tri thức muốn thu được từ dữ liệu mà ta sử dụng các phương pháp khai phá phù hợp.
Bên cạnh đó khai phá dữ liệu còn giúp quá trình tìm thông kiếm thông tin tốt hơn với người dùng hay việc chăm sóc khách hàng, bán hàng tốt hơn đối với các doanh nghiệp. Chúng ta rất quen thuộc với việc tìm kiếm trên google, chúng ta đã thử đặt câu hỏi tại sao google có thể tìm kiếm một cách nhanh và thông minh đến vậy và dữ liệu vô cùng phong phú trên tất cả các mặt các lĩnh vực của đời sống xã hội?
Hay việc mua bán sách trực tuyến trên trang nổi tiếng amazon.com, bạn để ý rằng mỗi khi bạn xem thông tin chi tiết về một quyển sách nào đó trên site thì bao giờ cũng kèm theo 1 danh sách các quyển sách gợi ý mua kèm theo quyển bạn đang xem, một thống kê cho thấy có tới trên 70% đầu sách được người dùng mua thêm thông qua hình thức gợi ý này. Vậy điều gì làm cho việc bán sách hiệu quả đến như vậy?
Tất cả những điều đạt được như vậy là nhờ công nghệ khai phá dữ liệu (data mining). Một trong những tác vụ khai phá dữ liệu hay được sử dụng đặc biệt trong thương mại điện tử là Association rule, bài tiểu luận này em xin trình bày về “Khai phá dữ liệu với Association Rule”.
2. Mục đích
Dữ liệu là cần thiết cho tất cả các nghành, các lĩnh vực chính vì vậy lưu trữ dữ liệu, khai phá dữ liệu là nhu cầu của mọi ngành, mọi lĩnh vực. Quá trình khai phá dữ liệu sẽ thu được những thông tin giá trị để phát triển các chiến lược kinh doanh mới, mở rộng thị trường hay một hướng nghiên cứu mới. Thương mại điện tử là một lĩnh vực đang rất phát triển, lượng dữ liệu phải lưu trữ tương đối lớn, cũng như các chiến lược kinh doanh phải thườg xuyên thay đổi đáp ứng được nhu cầu xã hội cũng như cạnh tranh với các đơn vị khác. Việc khai phá dữ liệu trong thương mại điện tử là rất cần thiết và có hiệu quả rõ rệt.
Xem thêm

20 Đọc thêm

NGHIÊN CỨU MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆUỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU NGHIỆP VỤTẬP TRUNG TRONG NGÀNH HẢI QUAN

NGHIÊN CỨU MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆUỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU NGHIỆP VỤTẬP TRUNG TRONG NGÀNH HẢI QUAN

Hà Nội - 2015LỜI CAM ĐOANTôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả nêu trongluận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác.Hà Nội ngày 12 tháng 09 năm 2015Học viênLưu Hùng Cường3LỜI CẢM ƠNDo vốn kiến thức thực tế còn hạn chế nên nội dung luận văn không thể tránh khỏithiếu sót. Do vậy em rất mong nhận được ý kiến đóng góp của các thầy cô giáo vànhững ai quan tâm đến vấn đề tích hợp dữ liệu để em có thể hoàn thiện hơn trongnhững lần sau ở các cấp học cao hơn.Em cũng xin được gửi lời cảm ơn chân thành tới các thầy cô của Trường Đại họcCông nghệ, Đại học Quốc gia Hà Nội đã tạo mọi điều kiện cho em khi nghiên cứu đềtài này. Và đặc biệt em xin được gửi lời cảm ơn sâu sắc nhất tới TS. Phùng Văn Ổn,thầy đã tận tình chỉ bảo và hướng dẫn em hoàn thành luận văn này.Trong luận văn có một phần là công sức đóng góp chung của tập thể anh chị emtrong công ty, nơi em công tác với vai trò là Project Manager.Hà Nội ngày 26 tháng 9 năm 2015Học viênLưu Hùng Cường
Xem thêm

12 Đọc thêm

Thiết kế và chế tạo mô hình máy uốn móc áo tự động

THIẾT KẾ VÀ CHẾ TẠO MÔ HÌNH MÁY UỐN MÓC ÁO TỰ ĐỘNG

.2.1. Sản phẩm dùng trong công nghiệp
Trong sản xuất hiện nay các sản phẩm ống được ứng dụng rất rộng rãi dùng để dẫn nhiên liệu phục vụ sản xuất như dẫn dầu,dẫn khí...được ứng dụng trong rất nhiều ngành như đóng tàu, sản xuất sữa, sản xuất bia...
Trong nghành giao thông vận tải hiện nay thì ngành vận tải đường ống cũng đóng vai trò rất quan trọng dẫn dầu, dẫn khí, dẫn khoáng sản...góp phần tiết kiệm chi phí trong vận chuyển và sản xuất.
I.2.2. Sản phẩm dùng trong sinh hoạt
Trong sinh hoạt sản phẩm ống cũng được ứng dụng rộng rãi nhưng đòi hỏi tính thẩm mỹ cao nên chủ yếu dùng vật liệu inox. Các sản phẩm như: lan can, bàn ghế...
Xem thêm

87 Đọc thêm

Quản lý dữ liệu các vụ tai nạn giao thông đường bộ tại Việt Nam

QUẢN LÝ DỮ LIỆU CÁC VỤ TAI NẠN GIAO THÔNG ĐƯỜNG BỘ TẠI VIỆT NAM

Trong phạm vi quản lý nhà nước về an toàn giao thông, Bộ giao thông vận tải và Ủy ban an toàn giao thông quốc gia cần có một cơ sở dữ liệu về Tai nạn giao thông trên toàn quốc. Do vậy “Nghiên cứu, xây dựng cơ sở dữ liệu về tai nạn giao thông” là một yêu cầu cấp thiết.

44 Đọc thêm

Luật kết hợp có trọng số và ứng dụng

LUẬT KẾT HỢP CÓ TRỌNG SỐ VÀ ỨNG DỤNG

MỤC LỤC
MỤC LỤC 1
BẢNG CÁC KÝ HIỆU 3
LỜI NÓI ĐẦU 4
Chương 1: TỔNG QUAN 6
1.1 Khai phá dữ liệu 6
1.2 Luật kết hợp 10
1.2.1 Một số khái niệm liên quan. 10
1.2.2 Giải thuật Apriori khai phá tập hạng mục phổ biến 12
a. Bản chất 13
b. Ví dụ: 13
c. Giả mã 14
d. Nhận xét thuật toán Apriori: 15
1.2.3 Thuật toán sinh luật kết hợp 23
a. Thuật toán sinh luật đơn giản 23
b. Thuật toán sinh luật nhanh 24
1.2.4 Ứng dụng của luật kết hợp 25
Chương 2: LUẬT KẾT HỢP CÓ TRỌNG SỐ 27
2.1 Yêu cầu phải xem xét trọng số 27
2.2 Luật kết hợp có trọng số trong CSDL nhị phân 28
2.2.1 Khái niệm 28
2.2.2 Giải thuật khai phá luật kết hợp có trọng số 31
2.2.3 Luật kết hợp có trọng số được chuẩn hoá 39
2.2.4 So sánh sự thực thi của 2 giải thuật 42
2.3 WAR (Weighted association rule) _ Luật kết hợp với trọng số thể hiện tần xuất hạng mục trong giao dịch. 43
2.3.1 Các khái niệm 44
2.3.2 Phương pháp tổng quát 46
2.3.3 Phân chia không gian 48
2.3.4 Tạo ra các luật kết hợp có trọng số 52
2.3.5 Cấu trúc dữ liệu và giải thuật 57
2.3.6 Phân tích độ phức tạp 58
2.4 Utility _ Mức đo lợi ích của hạng mục và giải thuật khai phá tập utility phổ biến. 59
2.4.1 Các khái niệm 60
2.4.2 Giải thuật 2 pha (2PUF: 2 phases algorithm for utility frequent mining) khai phá tập hạng mục utility phổ biến. 64
2.4.3 Giải thuật FUFM khai phá tập hạng mục uti phổ biến 66
2.4.4 So sánh 2 giải thuật 2PUF và FUFM 67
2.5 Một số ứng dụng luật kết hợp có trọng số 68
Chương 3: CHƯƠNG TRÌNH MINH HOẠ 71
3.1 Cài đặt thuật toán 71
3.2 Thiết kế, xây dựng chương trình 77
KẾT LUẬN 83
1. Kết quả đã đạt được 83
2. Hướng phát triển 83
TÀI LIỆU THAM KHẢO 84

BẢNG CÁC KÝ HIỆU
STT Ký hiệu Diễn giải
1 CSDL Cơ sở dữ liệu
2 WAR Weighted association rule (Luật kết hợp có trọng số)
3 FUFM Fast utility frequent mining (khai phá tập utility phổ biến nhanh)
4 KDD Knowledge Discovery in Databases (khám phá tri thức)
5 2PUF Two phases algorithm for utility frequent mining (giải thuật 2 pha để khai phá tập utility phổ biến)
6 uti utility
7 sup support (độ hỗ trợ)
8 conf confidence (độ tin cậy)

LỜI NÓI ĐẦU
Trong thời đại bùng nổ thông tin, đỏi hỏi phải có những phương pháp nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị. Khai phá dữ liệu là một kỹ thuật được áp dụng rất hiệu quả phục vụ cho mục đích này; là một khâu trong quá trình khám phá tri thức, khai phá dữ liệu làm nhiệm vụ trích xuất các thông tin có giá trị tiềm ẩn, có nhiều ý nghĩa trong những kho dữ liệu. Hiện nay, kỹ thuật này đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông,…
Khai phá luật kết hợp là một phương thức đặc trưng đối với khai phá dữ liệu. Ra đời từ năm 1993, rất nhiều giải thuật khai phá luật kết hợp đã được đưa ra để giải quyết hiệu quả bài toán, nhiều chương trình ứng dụng thực tế đã được áp dụng thành công. Tuy nhiên hầu hết các nghiên cứu tập trung vào khai phá luật kết hợp nhị phân, nó chỉ quan tâm đến sự có mặt hay không của các hạng mục, các thuộc tính mà không quan tâm tới các nhân tố ảnh hưởng khác có thể làm mất mát thông tin hay thông tin đưa ra chưa phục vụ tốt nhất cho mục đích kinh doanh của mình
Nhận thấy tầm quan trọng của vấn đề này, trong đồ án tốt nghiệp của mình, tôi đã chọn nghiên cứu đề tài về khai phá dữ liệu, cụ thể là khai phá luật kết hợp mà tập trung đi sâu vào khai phá luật kết hợp có trọng số và ứng dụng luật có trọng số vào phân tích dữ liệu giỏ hàng nhằm tìm ra các mối quan hệ, các mặt hàng thường đi cùng nhau, có xét đến lợi nhuận cũng như tần xuất xuất hiện của chúng trong các giao dịch nhằm tạo cơ sở chính xác, khoa học cho các quyết định trong chiến lược kinh doanh.
Xem thêm

86 Đọc thêm

KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA

KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA

học, dữ liệu tài chính, và các dữ liệu tiếp thị. Con người không có đủ thờigian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồntài nguyên quý giá.Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phânloại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trongnó, và tự động chỉ dẫn các dị thường.Đây là một trong những lĩnh vực năng động và thú vị nhất của cộngđồng nghiên cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồmthống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh9vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt nhữngtiến bộ phi thường trong vài thập kỷ gần đây”.Kenneth Cukier:“Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạonên khả năng làm được nhiều việc mà trước đây không thể thực hiện được:nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm …Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa cácnguồn mới có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học vàtạo ra lợi ích từ quản lý”.Chính vì vậy, đúng như John Naisbett nhận định, hiện nay chúng tađang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức”.Lượng DL khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị bởithông tin là yếu tố then chốt để phục vụ cho mọi nhu cầu thiết thực trong hoạtđộng hàng ngày của chúng ta. Vậy chúng ta làm gì với một khối DL này.Hình 1.3 thể hiện sự băng khoăn đó.Hình 1.3. Chúng ta đang giàu dữ liệu nhưng nghèo tri thức [6]
Xem thêm

81 Đọc thêm

nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu

NGHIÊN CỨU KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining).
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Bước quan trọng nhất của quá trình này là Khai phá dữ liệu (Data Mining - DM), giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác. Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình và đã thu được những lợi ích to lớn. Nhưng để làm được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả là chìa khoá quan trọng. Vì vậy, trong luận văn này, tác giả sẽ đề cập tới hai kỹ thuật thường dùng trong Khai phá dữ liệu, đó là Phân loại (Classification) và Phân cụm (Clustering hay Cluster Analyse).
Xem thêm

38 Đọc thêm

VẬN TẢI HÀNG KHÔNG TRONG HÀNG KHÔNG QUỐC TẾ

VẬN TẢI HÀNG KHÔNG TRONG HÀNG KHÔNG QUỐC TẾ

các tiêu chuẩn về cấp phép hàng không, chất lượng của phương tiện bay, năng lực củanhân viên hàng không. Hiện nay nghành vận tải hàng không cũng đang đối mặt với mộtnguy cơ hết sức nghiêm trong đó là khủng bố hàng không và tội phạm hàng không,những điều này gây ra một hậu quả vô cùng nghiêm trọng điển hình như Ngày23/12/1988, chiếc phi cơ Boeing 747 của hãng hàng không Pan Am bị nổ tung vì bomtrên bầu trời Lockerbie, Scotland. Toàn bộ 270 hành khách và phi hành đoàn đều thiệtmạng hay nổi tiếng nhất chiếc phi cơ của hãng hàng không United Airlines lao thẳng vàotòa tháp phía nam của Trung tâm Thương mại Quốc tế ngày 11/9/2001. Thành viên mạnglưới khủng bố Al Qaeda đã cướp chiếc phi cơ này, Vụ tấn công vào Trung tâm Thươngmại Thế giới khiến 2.750 người chết, những con số nói trên đã gây ra chấn động mạnhmẽ cho các quốc gia và từ đó đặt ra việc bảo vệ an ninh hàng không nghiêm ngặt, bằngviệc đặt ra các quy định về kiểm soát khách hàng, hành lý và bưu kiện, cũng như tiêuchuẩn cất cánh…cũng được kiện toàn nhằm hạn chế tối đa những trường hợp đáng tiếc.Thứ ba, về việc phát triển quốc phòng, tăng cường bảo vệ vùng trời thuộc lãnh thổquốc gia, việc vận chuyển hàng không được thiết lập trên cơ sở thỏa thuận cho phép sửdụng vùng trời thuộc lãnh thổ quốc gia của mình, khai thác các đường bay, điều này đặtra nhu cầu bảo vệ vùng trời và an toàn của mặt đất trong trường hợp có hành vi xâmphạm xảy ra, đòi hỏi mỗi quốc gia phải xây dựng cho mình hệ thống phòng thủ thích hợp,toàn diện để đối phó với các nguy cơ có thể xảy ra trong quá trình vận tải hàng không vàbảo đảm chủ quyền tối cao của quốc gia đối với lãnh thổ của nước mình. Để làm tốt côngviệc trên cần đòi hỏi sự hợp tác của rất nhiều quốc gia, ngày 28/6, Tổ chức Hàng khôngdân dụng quốc tế (ICAO) và Tổ chức Hải quan thế giới (WCO) đã ký thỏa thuận tăngcường hợp tác nhằm bảo đảm vận tải hàng hóa bằng đường hàng không an toàn trước cáchoạt động khủng bố, tội phạm và đẩy nhanh tốc độ lưu chuyển hàng hóa trên toàn cầu.Thỏa thuận hợp tác tập trung vào việc sắp xếp và điều chỉnh khuôn khổ các quychế của ICAO và WCO liên quan đến vận tải hàng hóa hàng không, chia sẻ các dữ kiệnđiện tử tiên tiến và thông tin ở tất cả các cấp giữa các chính phủ, giữa hải quan các nướccũng như giáo dục đào tạo nguồn nhân lực và quản lý rủi ro.Các chuyên gia của hai tổ chức trên sẽ thăm dò việc ứng dụng quản lý rủi ro đểnhận dạng các mối đe dọa và thực hiện các biện pháp an ninh cần thiết.
Xem thêm

15 Đọc thêm

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG
Tìm hiểu các vấn đề trong khai phá luật kết hợp đối với thuộc tính số, ĐSGT
Tìm hiểu thuật toán khai phá luật kết hợp mờ tổng quát
Nghiên cứu thuật toán khai phá luật kết hợp mờ tổng quát theo hướng tiếp cận ĐSGT

33 Đọc thêm

Tiểu luận DataWarehouse and OLAP Technology

TIỂU LUẬN DATAWAREHOUSE AND OLAP TECHNOLOGY

MỤC LỤC

1. Giới thiệu
2. Tại Sao Phải Khai Phá Dữ Liệu
3. Khái Niệm Kho Dữ Liệu
4. Cấu Trúc Kho Dữ Liệu
5. Mối Liên Quan Giữa Kho Dữ Liệu Và Khai Phá Dữ Liệu
6. OLAP là gì
7. Mô Hình Dữ Liệu Đa Chiều
8. Công cụ hỗ trợ OLAP









1. Giới thiệu.
Công nghệ thông tin phát triển nhanh chóng và được ứng dụng rộng rãi trong mọi lĩnh vực như kinh tế,kế toán, giáo dục, giải trí, quản lý… đó là cả một lượng thông tin khổng lồ. vậy nhưng trong những thông tin đó thì thông tin gì là có ích cho mỗi người sử dụng? và làm sao chúng ta có thể có được những gì chúng ta cần một cách nhanh chóng trong dữ liệu là bạt ngàn như vậy. câu hỏi đặt ra là chúng ta đang “giàu về thông tin nhưng nghèo về tri thức”. Điều đó đó đòi hỏi phải phát triển các phương pháp nào đó nhằm phát hiện ra những thông tin, tri thức có ích phù hợp với người muốn sử dụng nó từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của các tổ chức, doanh nghiệp. khai phá dữ liệu là một phương pháp như vậy. Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống.

2. Tại Sao Phải Khai Phá Dữ Liệu
Ước tính cứ khoảng 20 tháng lượng thông tin trên thế giới lại tăng gấp đôi. Chính vì vậy, hiện nay lượng dữ liệu mà con người thu thập và lưu trữ được trong các kho dữ liệu là rất lớn, nhiều khi vượt quá khả năng quản lý. Thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho những người ra quyết định trong các tổ chức tài chính, thương mại, khoa học, ... . Đúng như John Naisbett đã cảnh báo “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Với một khối lượng dữ liệu tăng nhanh và khổng lồ như vậy, rõ ràng các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệu quả, tốn kém và dễ dẫn đến những sai lệch. Do đó để có thể khai phá hiệu quả các cơ sở dữ liệu lớn cần phải có những kỹ thuật mới, các kỹ thuật khai phá dữ liệu (Data Mining).

3. Khái Niệm Kho Dữ Liệu
Data warehouse (kho dữ liệu) là kho lưu trữ dữ liệu bằng thiết bị điện tử trong 1 tổ chức. các kho dữ liệu được thiết kế để hỗ trợ phân tích và lập báo cáo. Data mart là kho dữ liệu cục bộ là nơi dữ liệu được khoanh vùng theo chủ đề tới 1 giới hạn nào đó và có thể được thay đổi để phù hợp với yêu cầu từng bộ phận người dùng . các công cụ truy vấn (query), báo cáo (reporting), phân tích trực tuyến (OLAP), khai phá dữ liệu (data mining) là những cách khai thác Data warehouse nhằm đem lại tri thức (knowledge) hơn là dữ liệu thô (raw data).
Một định nghĩa mở rộng cho kho dữ liệu bao gồm cả các công cụ thông minh, các công cụ để trích, biến đổi và nạp dữ liệu vào kho, và các công cụ để quản lý và lấy siêu dữ liệu (meta data).
Theo W.H.Inmon, Data warehouse được định nghĩa như một “tập hợp dữ liệu hướng đối tượng, tích hợp, có tính ổn định, thay đổi theo thời gian hỗ trợ cho xử lý thực hiện quyết định quản trị”.
4. Cấu Trúc Kho Dữ Liệu
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những đặc tính: Là một cơ sở dữ liệu được thiết kế có nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau. Hỗ trợ cho một số người dùng có liên quan với các thông tin liên quan. Là dữ liệu chỉ đọc. Nội dung của nó được cập nhật thường xuyên theo cách thêm thông tin. Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin. Chứa các bảng dữ liệu có kích thước lớn. Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết nhiều bảng.
Xem thêm

13 Đọc thêm

LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU

LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU

45LỜI MỞ ĐẦUkhai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của các kết quả thuNhư đã biết, trong những năm gần đây công nghệ thông tin phát triển vôcùng nhanh chóng và được ứng dụng rộng rãi trong mọi lĩnh vực đời sống xãhội, nhất là trong quản lý, một lĩnh vực mà yếu tố khoa học công nghệ có tínhquyết định. Sự việc đó dẫn đến sự bùng nổ thông tin, làm cho những nhà quản lýrơi vào tình trạng “ngập lụt thông tin". Chính vì vậy, các chuyên gia cho rằng,hiện nay chúng ta đang sống trong một xã hội “rất giàu về thông tin nhưngnghèo về tri thức”. Tình hình đó đòi hỏi phải phát triển các phương pháp khaiphá, phát hiện ra những thông tin, tri thức có ích bị che giấu trong các “núi” dữliệu phục vụ cho công việc của các nhà quản lý, các chuyên gia, từ đó thúc đẩykhả năng sản xuất, kinh doanh, cạnh tranh của các tổ chức, doanh nghiệp.Khai phá dữ liệu (Data Mining) là một lĩnh vực khoa học liên ngành mớixuất hiện gần đây nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu cùng vớinhững ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấykhai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích,đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống.được.Từ năm 1970 đến nay, rút gọn thuộc tính (hay còn gọi là rút gọn số chiều –Dimension reduction) đã trở thành đề tài được quan tâm bởi nhiều nhà nghiêncứu thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu.Chính những lý do trên, chúng tôi chọn đề tài “Lựa chọn thuộc tính trongkhai phá dữ liệu” làm đề tài nghiên cứu của mình.
Xem thêm

29 Đọc thêm

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG

Nội dung
Chương I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM)
Chương II. Tiền xử lý dữ liệu
Chương III. Một số phương pháp khai phá dữ liệu
Chương IV. Lượng giá và sử dụng tri thức được khám phá
Chương V. Ứng dụng
I.1. Khám phá tri thức và khai phá dữ liệu là gì?

Giáo sư Tom Mitchell 4 đã đưa ra định nghĩa của KPDL như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”

Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad 3 đã phát biểu: “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”
Xem thêm

46 Đọc thêm

Luận văn: Sử dụng thuật toán Microsoft Decision Tree trong công tác quản lý nhân sự tại các cơ quan hải quan

LUẬN VĂN: SỬ DỤNG THUẬT TOÁN MICROSOFT DECISION TREE TRONG CÔNG TÁC QUẢN LÝ NHÂN SỰ TẠI CÁC CƠ QUAN HẢI QUAN

Luận văn nghiên cứu tổng quan về đặc tính công nghệ khai phá dữ liệu, các kỹ thuật khai phá dữ liệu (phân cụm, phân lớp..), các phần mềm thông dụng khai phá dữ liệu và giải pháp phân lớp dựa trên cây quyết định. Luận văn tập trung vào thuật toán tiêu biểu ứng dụng cho phạm vi phân tích dữ liệu là “Microsoft Decision Tree”, sử dụng công cụ phân tích dữ liệu của Microsoft.

89 Đọc thêm

KHAI PHÁ LUẬT KẾT HỢP VỚI DỮ LIỆU PHÂN TÁN DỰA TRÊN MÔ HÌNH MAPREDUCE

KHAI PHÁ LUẬT KẾT HỢP VỚI DỮ LIỆU PHÂN TÁN DỰA TRÊN MÔ HÌNH MAPREDUCE

KHAI PHÁ LUẬT KẾT HỢP VỚI DỮ LIỆU PHÂN TÁN DỰA TRÊN MÔ HÌNH MAPREDUCE
Chương 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU
Chương 2: KHAI PHÁ LUÂṬ KẾT HƠP
Chương 3: TỔNG QUAN MÔ HÌNH LÂP̣ TRÌNH MAPREDUCE
Chương 4: ỨNG DỤNG LUẬT KẾT HỢP TRONG MÔ HÌNH MAPREDUCE

28 Đọc thêm

Đố án Tin học ứng dụng Tìm hiểu Talend

ĐỐ ÁN TIN HỌC ỨNG DỤNG TÌM HIỂU TALEND

Talend là một nhà cung cấp phần mềm mã nguồn mở. Talend cung cấp khả năng tích hợp dữ liệu (data integration), quản lý dữ liệu (data management), tích hợp ứng dụng doanh nghiệp (enterprise application integration), các phần mềm và các dịch vụ dữ liệu lớn (big data).
Talend Open Studio là một tập hợp mạnh mẽ và linh hoạt của các sản phẩm mã nguồn mở để phát triển, thử nghiệm, triển khai, quản trị các dự án quản lý dữ liệu và các dự án ứng dụng tích hợp. Talend cung cấp các nền tảng thống nhất làm cho quản lý dữ liệu và tích hợp ứng dụng dễ dàng hơn bằng cách cung cấp một môi trường thống nhất quản lý toàn bộ vòng đời của doanh nghiệp qua các ranh giới hoạt động của doanh nghiệp.
Talend - nhà lãnh đạo toàn cầu trong hội nhập mã nguồn mở, cung cấp giải pháp tích hợp mà thực sự mở rộng cho bất kỳ loại thách thức tích hợp, bất kỳ khối lượng dữ liệu và bất kỳ phạm vi dự án dù đơn giản hay phức tạp. Chỉ có số liệu đánh giá cao khả năng mở rộng của Talend, ứng dụng và quy trình kinh doanh nền tảng tích hợp khả năng mở rộng của Talend. Talend kết hợp các dự án và các công nghệ để tăng tốc đáng kể thời gian đưa ra giá trị cho các hoạt động kinh doanh.
Sẵn sàng cho môi trường dữ liệu lớn, kiến trúc linh hoạt của Talend dễ dàng thích nghi với các nền tảng công nghệ thông tin trong tương lai. Sản phẩm của Talend giảm đáng kể rào cản áp dụng cho các doanh nghiệp muốn đóng gói các giải pháp mạnh mẽ để thách thức hoạt động như tích hợp dữ liệu (Data Integration), chất lượng dữ liệu (Data Quality), quản lý dữ liệu tổng thể (Master Data Management - MDM), xe buýt phục vụ doanh nghiệp (Enterprise Service Bus - ESB), quản lý qui trình kinh doanh (Business Process Management - BPM) và kho dữ liệu lớn (Big Data). Talend thúc đẩy và mở rộng công nghệ hàng đầu Apache. Mã nguồn mở Talend cho ESB và các giải pháp nguồn mở SOA giúp các tổ chức xây dựng linh hoạt kiến trúc doanh nghiệp hiệu suất cao đó là tích hợp và cho phép các dịch vụ ứng dụng phân tán.
Không giống như các nhà cung cấp truyền thống cung cấp các giải pháp đóng cửa và rời rạc, Talend cung cấp một nền tảng mở và linh hoạt, được hỗ trợ bởi một mô hình thuê bao dựa trên giá trị dự đoán và khả năng mở rộng .
Xem thêm

87 Đọc thêm

BÁO CÁO BÀI TẬP LỚN Môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN

BÁO CÁO BÀI TẬP LỚN MÔN KHAI PHÁ DỮ LIỆU: PHÂN LỚP DỮ LIỆU SỐ BẰNG GIẢI THUẬT K-NN

Trong thời buổi hiện đại ngày nay, công nghệ thông tin cũng như những ứng dụng của nó không ngừng phát triển, lượng thông tin và cơ sở dữ liệu được thu thập và lưu trữ cũng tích lũy ngày một nhiều lên. Con người cũng vì thế mà cần có thông tin với tốc độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã có. Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế, vì thế, một khuynh hướng kỹ thuật mới là Kỹ thuật phát hiện tri thức và khai phá dữ liệu nhanh chóng được phát triển.
Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới. Ở Việt Nam, kỹ thuật này đang được nghiên cứu và dần đưa vào ứng dụng. Khai phá dữ liệu là một bước trong quy trình phất hiện tri thức. Hiện nay, mọi người không ngừng tìm tòi các kỹ thuật để thực hiện khai phá dữ liệu một cách nhanh nhất và có được kết quả tốt nhất.
Trong bài tập lớn này, chúng em tìm hiểu và trình bày về một kỹ thuật trong khai phá dữ liệu để phân lớp dữ liệu cũng như tổng quan về khai phá dữ liệu, với đề tài “ Phân lớp dữ liệu số bằng giải thuật K-NN”.
Trong quá trình làm bài tập lớn này, chúng em xin gửi lời cảm ơn đến thầy giáoNguyễn Mạnh Cường. Thầy đã rất tận tình hướng dẫn chi tiết cho chúng em, những kiến thức thầy cung cấp rất hữu ích. Chúng em rất mong nhận được những góp ý từ thầy.
Xem thêm

19 Đọc thêm