BayesianClassifier hành viTổng quanHồ sơ danh từ sinh học tweets và văn bản xuất hiện, họ đã bày tỏ hồ sơ để đoán cấu hình bằng cách kiểm tra cho dù các lớp học đặc trưng danh từ.Bạn cần phải tải một số lần xuất hiện của từ viết bằng một đối tượng tập tin cho mỗi cấu hình mỗi, lớp này mất tập tin đối tượng và ngưỡng trong các nhà xây dựng.phân loại phương pháp mất đối tượng đại diện cho tweet, trả lại, ước tính theo quy định rằng nó đăng hồ sơ người dùng. Không được phép trở về null tại thời điểm này.Quyết định quy trìnhBayesianClassifier, tính toán xác suất của tất cả các thông tin hồ sơ, thuộc cấu hình đó một tweet, ước tính các Tweets đăng bằng cách trả lại nó là hồ sơ người dùng hồ sơ cao nhất.Thủ tục quyết định này là một kế hoạch để thư rác (http://www.paulgraham.com/spam.html) đề cập đến. Xin vui lòng cho tôi biết nếu bạn dường như sử dụng các thuật toán sai mâu thuẫn với điều này.Các thủ tục trông như thế này.Để tính toán xác suất cho một tweet, nó là người đàn ông, các xác suất của phụ nữ trong, xác suất của thiếu niên, xác suất của 20-somethings, xác suất... fifties trongVề giới tính của người dùng, chọn một xác suất cao. Tuy nhiên, nếu falls dưới ngưỡng thiết lập để xử lý không rõTuổi của người dùng, chọn một xác suất cao. Tuy nhiên, nếu falls dưới ngưỡng thiết lập để xử lý không rõTrả về tương ứng, xác định cấu hình giới tính và tuổi tác. Trở lại chưa biết nếu một trong hai là không rõ ràng nhưng một) ( Ví dụ quần tweets một tweet, với một xác suất thuộc tính được tính như sau.Vào danh sách danh từ tweets sinh học và phân tích hình Thái văn bản đầy đủ, và xuất hiệnCác thuộc tính của một người dùng đăng nó về một chữ w, p xác suất cho công thức 1. Và prob (p, w) để làm điều này.| prob (p, w)-0.5 | tối đa, trong thứ tự giảm dần bằng cách chọn 15 danh từ. Ngoại trừ những gì giá trị này là 0. Danh từ tập thể để W.Bởi phương trình 2 tính toán xác suất bạn gửi tweets từ W, thuộc tính người dùng trong các p.Chỉ khi ngưỡng này không vượt quá nếu các cấu hình của hầu hết các tỷ lệ cược lớn để trở về sự trở lại như UNKNOW.Xác suất chứ không phải thời gian để xác định các hồ sơ, giới tính và tuổi để xác định một cách riêng biệt M10, M20 xác suất. Và các lý do như vậy không phải để làm như vậy có thể là cách để xác định, do đó, từ các dữ liệu khối lượng là quá thấp.Tại sao các bản án ở nam giới là người đàn bà, và một trong những người đàn ông là từ dường như đã nói và những gì phụ nữ không biết.Công thức 1all_but (p) với các thuộc tính trong các p.Tổng số Tweets đăng bởi người dùng với thuộc tính k lần xuất hiện của từ w là trong các tweet đã được đăng bởi người dùng có thuộc tính k num (k, w) để allnum (k).Sau đó công thức 1 có thể được biểu thị dưới dạng:.def prob (p, w): Nếu in a (p, w) + num (all_but (p), w) < 5: trở về 0,5 p_prob = min (1, 2 * num (p, w) / allnum (p)) q_prob = min (1, num (all_but (p), w) / allnum (all_but (p))) trở về phút (0,99, tối đa (0.01, p_prob / (p_prob + q _ prob)))Biểu hiện 2Xác suất với thuộc tính p người dùng gửi Tweets có chứa từ w để prob (w, p), và loại 2 có thể được đại diện như:.def expr2 (W, p): p_prob = 1 cho w trong W: p_prob = p_prob * prob (w, p) n_prob = 1 cho w trong W: n_prob = n_prob * (1-prob (w, p)) trở lại p_prob / (n_prob + p _ prob)Định dạng của tập tin được sử dụng để khởi tạo cácBayesianClassifier nhận được một tập tin khởi tạo là một tập tin CSV ghi lại tất cả các tweets số thuộc về danh sách các thuộc tính, mỗi thuộc tính, và số lần xuất hiện của từ, và cho mỗi cấu hình. Tập tin được mã hóa theo UTF-8.Cụ thể, các nội dung của tập tin trông như thế này.Hồ sơ, M, F, 10, 20, 30, 40,50num_of_tweets, 172, 139,172, 93,129, 126, 87word1, 72, 31, 38, 82, 59,109, 22Trong trường hợp này, đại diện cho số lần xuất hiện của từ và thuộc tính mỗi dòng số tweets tất cả thuộc về mỗi thuộc tính danh sách thuộc tính, dòng 2, dòng 3 và sau đó.Nếu bạn thích, trong quá trình khởi tạo nên nâng cao một ngoại lệNếu không thuộc tính danh sách và tổng số tweetsNếu chứa ký tự không thể được hiểu là các thuộc tính trong danh sách thuộc tính,Nếu ngay cả một giá trị tiêu cực là các tweets tất cảBỏ qua thứ ba hàng là dòng tiếp theo.Dòng sản phẩm nàoCột Số lần xuất hiện từ danh sách số là ít hơn các cột trong danh sách các thuộc tính nếu (số và thuộc tính không được ánh xạ)Nếu số lần xuất hiện của từ chứa ít nhất một giá trị tiêu cựcKiểm tra quan điểmHệ thống bình thườngĐảm bảo rằng trường hợp được khởi tạo đúng bởi các quy tắc như sau.Chỉ các quy tắc chính xác định dạng bao gồm.Bao gồm chỉ là danh sách cấu hình và tổng số TweetsBao gồm các dòng sản phẩm nàoNhững người có số từ là tiêu cựcNhững gì có hàng số cột đại diện cho số lần xuất hiện của từ là không đủSố cột đại diện cho số lần xuất hiện của từ rất nhiều bao gồm dòng quáXin vui lòng kiểm tra, phân loại các phương pháp để hoạt động được nếu sau đây.Số lần xuất hiện của từ trong tất cả 0 khi tôi đọc nó, chẳng hạn như một tập tin. Phương pháp nên luôn luôn trở lại chưa biết.Loạt các bất thườngNếu sau đây nên là một ngoại lệ.Nếu từ sự xuất hiện số định dạng tập tin là bất thường trong quá trình khởi tạo,Nếu ngưỡng là 0 hoặc ít hơn, hoặc nhiều hơn mộtResultWriter lớpHãy chắc chắn để đầu ra trong văn bản tập tin là in một mỗi dòng, phân tách bằng tab trong tên của người dùng và hồ sơ, định dạng nén gz.q. v. GZipOutputStreamBắt đầu chương trìnhBạn nên cung cấp một số thông tin để chạy chương trình. Nó nên được đưa ra với các tùy chọn sau.quy tắcTên tệp có chứa một quy tắc quyết định được sử dụng bởi RuleBaseClassifierMô hìnhTrong đó có quyết định mô hình sử dụng tên tập tin BayesianClassifierngưỡngSử dụng ngưỡng BayesianClassifierđểKết quả viết để tên tập tin thư mụcChương trình thực tế sẽ bắt đầu sau đây.Hồ sơ - 0,8-quy tắc RuleFile.tsv - mẫu model.txt - ngưỡng - / -/ home/hồ sơ/kết quả /path/to/raw/data/2014/11/01Trong trường hợp này các chương trình bản án quy tắc bằng cách sử dụng mô hình quyết định của BayesianClassifier 'model.txt', 'RuleFile.tsv', tải ngưỡng giá trị khởi tester là 0,8, /path/to/raw/data/2014/11/01 và các tập tin dữ liệu thô, sản lượng để '/ home/hồ sơ/kết quả'.Phân tích của các tùy chọn dòng lệnh cho Apache Commons CLI.Đăng nhập đầu ra chi tiết kỹ thuậtXin vui lòng sử dụng hilf4j, đầu ra đăng nhập.Đăng nhập, đầu ra một dòng / 1. Hãy chắc chắn bạn đăng nhập theo định dạng LTSV. Một loạt các định dạng này, bản đồ đường như, phím và giá trị: ) ( ruột kết nối và phân tách bằng tab trong các hình thức.Thật tốt khi bạn sau đó đăng nhập phân tích chẳng hạn như trong định dạng Perl.Để biết khi nào bằng tay tái xử lý các thất bại rằng sự thành công một đó là lý do tại sao không thành công, thành công các bản ghi mà xử lý thông tin được thực hiện tự động, và làm thế nào lâu nó mất, và đối phó với bất kỳ vấn đề, tốt wataseba bất kỳ đối số mà còn lại. Hãy chắc chắn để lại thông tin như vậy, bằng cách sử dụng log4j PatternLayout, luôn luôn phát ra sau.ID quá trình của chương trìnhThời gian đăng nhập đầu raMức độ đăng nhậpMà lớn lên các lớp học đăng nhậpThông điệp ghiThời gian đăng nhập đầu ra từ chương trìnhXin vui lòng tham khảo log4.properties tệp được đính kèm vào mã.Khi bạn tiến bộ thành công, thời gian sau, mức độ thông tin đăng nhập sẽ được đăng nhập.Khi chương trình được bắt đầu. Xin vui lòng để lại một tin nhắn rằng chương trình được bắt đầu.Khi mỗi loại đã được khởi tạo thành công.Khi chương trình kết thúc bình thường. Xin vui lòng để lại một tin nhắn mà chương trình kết thúc.Ngoài ra, nên chấm dứt với một ngoại lệ khi ngoại lệ xảy ra, nó chấm dứt chương trình nếu việc nắm bắt ngoại lệ ở cấp độ đầu càng nhiều càng tốt, để đầu ra mức độ lỗi đăng nhập từ.Các dường như yêu cầu khác, mức độ của bản ghi gỡ lỗi.Xử lý ngoại lệNgoại lệ sau đây xảy ra, chương trình nên là để kết thúc.Nếu bạn thất bại trong việc khởi tạo các RuleBaseClassifier và BayesianClassifierRawDataParser IOException một được nêu ra:Khi ResultWriter thất bại để đầu raKiểm tra các thông số kỹ thuậtBạn có thể tạo ra các dữ liệu thô của dummy ### hiệu năng hệ thống (tốc độ) DummyRawDataWriter. Đo thời gian nó đã để chạy và sản xuất dữ liệu thô nọ, xin vui lòng báo cáo nó. Xin vui lòng đính kèm các ### tạo ra hiệu năng hệ thống (tải và khả năng mở rộng) và 1 ngày của dữ liệu thô và xử lý nó khi gclog. Kiểm tra sau đó, nó không phải là một OutOfMemoryException khi jvm bộ nhớ 2 GB.
đang được dịch, vui lòng đợi..
