Khoa học dữ liệu là gì? Khoa học dữ liệu là sự kết hợp đa ngành giữa suy luận dữ liệu, phát triển thuật toán và công nghệ để giải quyết các vấn đề phức tạp về mặt phân tích. Cốt lõi là dữ liệu. Hàng loạt thông tin thô, truyền vào và lưu trữ trong kho dữ liệu doanh nghiệp. Nhiều điều để học bằng cách khai thác nó. Các khả năng nâng cao mà chúng tôi có thể xây dựng với nó. Khoa học dữ liệu cuối cùng là sử dụng dữ liệu này theo những cách sáng tạo để tạo ra giá trị kinh doanh: Khoa học dữ liệu - khám phá thông tin chi tiết về dữ liệu Khía cạnh này của khoa học dữ liệu là tất cả về việc khám phá những phát hiện từ dữ liệu. Tìm hiểu sâu ở cấp độ chi tiết để khai thác và hiểu các hành vi, xu hướng và suy luận phức tạp. Đó là về việc hiển thị thông tin chi tiết ẩn có thể giúp các công ty đưa ra các quyết định kinh doanh thông minh hơn. Ví dụ: Dữ liệu Netflix khai thác các kiểu xem phim để hiểu điều gì thúc đẩy sự quan tâm của người dùng và sử dụng điều đó để đưa ra quyết định sản xuất loạt phim gốc Netflix nào. Target xác định đâu là các phân khúc khách hàng chính trong cơ sở của nó và các hành vi mua sắm độc đáo trong các phân khúc đó, giúp hướng dẫn thông điệp đến các đối tượng thị trường khác nhau. Proctor & Gamble sử dụng các mô hình chuỗi thời gian để hiểu rõ hơn nhu cầu trong tương lai, giúp lập kế hoạch cho các mức sản xuất tối ưu hơn. Làm thế nào để các nhà khoa học dữ liệu khai thác thông tin chi tiết? Nó bắt đầu với việc thăm dò dữ liệu. Khi được đưa ra một câu hỏi khó, các nhà khoa học dữ liệu sẽ trở thành thám tử. Họ điều tra khách hàng tiềm năng và cố gắng hiểu mẫu hoặc đặc điểm trong dữ liệu. Điều này đòi hỏi một liều lượng lớn của sự sáng tạo phân tích. Sau đó, khi cần thiết, các nhà khoa học dữ liệu có thể áp dụng kỹ thuật định lượng để có được mức độ sâu hơn - ví dụ: Mô hình suy luận, phân tích phân đoạn, dự báo chuỗi thời gian, thử nghiệm kiểm soát tổng hợp, v. V. Mục đích là ghép nối một cách khoa học chế độ xem pháp lý về dữ liệu là gì thực sự nói. Thông tin chi tiết theo hướng dữ liệu này là trọng tâm để cung cấp hướng dẫn chiến lược. Theo nghĩa này, các nhà khoa học dữ liệu đóng vai trò là nhà tư vấn, hướng dẫn các bên liên quan trong kinh doanh cách hành động theo các phát hiện. Khoa học dữ liệu - phát triển sản phẩm dữ liệu "Sản phẩm dữ liệu." Là tài sản kỹ thuật :(1) sử dụng dữ liệu làm đầu vào và (2) xử lý dữ liệu đó để trả về kết quả được tạo theo thuật toán. Ví dụ cổ điển về sản phẩm dữ liệu là công cụ đề xuất nhập dữ liệu người dùng và đưa ra các đề xuất được cá nhân hóa dựa trên dữ liệu đó. Dưới đây là một số ví dụ về sản phẩm dữ liệu: Các công cụ đề xuất của Amazon đề xuất các mặt hàng để bạn mua, được xác định bởi các thuật toán của họ.netflix đề xuất phim cho bạn. Spotify đề xuất nhạc cho bạn. Bộ lọc thư rác của Gmail là sản phẩm dữ liệu - một thuật toán đằng sau xử lý thư đến và xác định xem thư có phải là rác hay không. Thị giác máy tính được sử dụng cho ô tô tự lái cũng là sản phẩm dữ liệu - các thuật toán học máy có thể nhận dạng đèn giao thông, ô tô khác trên đường, người đi bộ, v. V. Điều này khác với phần "thông tin chi tiết về dữ liệu" ở trên, trong đó kết quả của việc đó có lẽ là đưa ra lời khuyên cho giám đốc điều hành để đưa ra quyết định kinh doanh thông minh hơn. Ngược lại, sản phẩm dữ liệu là một chức năng kỹ thuật đóng gói một thuật toán và được thiết kế để tích hợp trực tiếp vào các ứng dụng cốt lõi. Ví dụ tương ứng về các ứng dụng tích hợp sản phẩm dữ liệu đằng sau hậu trường: Trang chủ của Amazon, hộp thư đến của Gmail và phần mềm lái xe tự hành. Các nhà khoa học dữ liệu đóng vai trò trung tâm trong việc phát triển sản phẩm dữ liệu. Điều này liên quan đến việc xây dựng các thuật toán, cũng như thử nghiệm, sàng lọc và triển khai kỹ thuật vào các hệ thống sản xuất. Theo nghĩa này, các nhà khoa học dữ liệu đóng vai trò là nhà phát triển kỹ thuật, xây dựng các tài sản có thể được tận dụng ở quy mô rộng. Chuyên môn Toán học Trọng tâm của việc khai thác thông tin chi tiết về dữ liệu và xây dựng sản phẩm dữ liệu là khả năng xem dữ liệu thông qua lăng kính định lượng. Có kết cấu, kích thước và mối tương quan trong dữ liệu có thể được biểu thị bằng toán học. Việc tìm kiếm các giải pháp sử dụng dữ liệu trở thành một thử thách não bộ của kỹ thuật phỏng đoán và định lượng. Các giải pháp cho nhiều vấn đề kinh doanh liên quan đến việc xây dựng các mô hình phân tích dựa trên nền tảng của bài toán khó, nơi có thể hiểu được cơ chế cơ bản của các mô hình đó là chìa khóa để thành công trong việc xây dựng chúng. Ngoài ra, một quan niệm sai lầm là khoa học dữ liệu tất cả về thống kê. Mặc dù số liệu thống kê là quan trọng, nhưng nó không phải là loại toán duy nhất được sử dụng. Đầu tiên, có hai nhánh thống kê - thống kê cổ điển và thống kê Bayes. Khi hầu hết mọi người đề cập đến số liệu thống kê, họ thường đề cập đến số liệu thống kê cổ điển, nhưng kiến thức về cả hai loại đều hữu ích. Hơn nữa, nhiều kỹ thuật suy luận và thuật toán học máy dựa trên kiến thức về đại số tuyến tính. Ví dụ: Một phương pháp phổ biến để khám phá các đặc điểm ẩn trong tập dữ liệu là SVD, dựa trên phép toán ma trận và không liên quan nhiều đến số liệu thống kê cổ điển. Nhìn chung, sẽ rất hữu ích cho các nhà khoa học dữ liệu khi có kiến thức sâu rộng về toán học. Công nghệ và Hacking Đầu tiên, hãy làm rõ rằng chúng ta không nói về việc hack như đột nhập vào máy tính. Chúng tôi đang đề cập đến ý nghĩa văn hóa phụ của lập trình viên công nghệ của việc hack - tức là sự sáng tạo và khéo léo trong việc sử dụng các kỹ năng kỹ thuật để xây dựng mọi thứ và tìm ra các giải pháp thông minh cho các vấn đề. Tại sao khả năng hack lại quan trọng? Bởi vì các nhà khoa học dữ liệu sử dụng công nghệ để xử lý các tập dữ liệu khổng lồ và làm việc với các thuật toán phức tạp, và nó đòi hỏi các công cụ phức tạp hơn nhiều so với Excel. Các nhà khoa học dữ liệu cần có khả năng viết mã - tạo ra các giải pháp nhanh chóng, cũng như tích hợp với các hệ thống dữ liệu phức tạp. Các ngôn ngữ cốt lõi liên quan đến khoa học dữ liệu bao gồm SQL, Python, R và SAS. Ở ngoại vi là Java, Scala, Julia và những người khác. Nhưng nó không chỉ là biết các nguyên tắc cơ bản về ngôn ngữ. Một hacker là một ninja kỹ thuật, có thể điều hướng một cách sáng tạo theo cách của họ thông qua các thử thách kỹ thuật để làm cho mã của họ hoạt động. Cùng với đó, một hacker khoa học dữ liệu là một nhà tư duy thuật toán vững chắc, có khả năng phá vỡ các vấn đề lộn xộn và sắp xếp lại chúng theo những cách có thể giải quyết được. Điều này rất quan trọng vì các nhà khoa học dữ liệu hoạt động trong rất nhiều độ phức tạp của thuật toán. Họ cần có sự hiểu biết sâu sắc về dữ liệu chiều cao và các luồng kiểm soát dữ liệu phức tạp. Rõ ràng đầy đủ về cách tất cả các phần kết hợp với nhau để tạo thành một giải pháp gắn kết. Acumen kinh doanh mạnh mẽ Điều quan trọng đối với một nhà khoa học dữ liệu là một nhà tư vấn kinh doanh chiến thuật. Làm việc chặt chẽ với dữ liệu, các nhà khoa học dữ liệu được định vị để học hỏi từ dữ liệu theo những cách mà không ai khác có thể làm được. Điều đó tạo ra trách nhiệm chuyển các quan sát thành kiến thức được chia sẻ và đóng góp vào chiến lược về cách giải quyết các vấn đề kinh doanh cốt lõi. Điều này có nghĩa là năng lực cốt lõi của khoa học dữ liệu là sử dụng dữ liệu để kể một câu chuyện một cách đồng nhất. Không dùng dữ liệu-puking - thay vào đó, trình bày một bản tường thuật gắn kết về vấn đề và giải pháp, sử dụng thông tin chi tiết về dữ liệu làm trụ cột hỗ trợ, dẫn đến hướng dẫn. Có sự nhạy bén trong kinh doanh này cũng quan trọng như có sự nhạy bén đối với công nghệ và thuật toán. Cần có sự liên kết rõ ràng giữa các dự án khoa học dữ liệu và các mục tiêu kinh doanh. Cuối cùng, giá trị không đến từ dữ liệu, toán học và công nghệ. Nó đến từ việc tận dụng tất cả những điều trên để xây dựng các năng lực có giá trị và có ảnh hưởng mạnh mẽ đến hoạt động kinh doanh. Nhà khoa học dữ liệu là gì - tò mò và đào tạo Tư duy Một đặc điểm tính cách chung của các nhà khoa học dữ liệu là họ là những người suy nghĩ sâu sắc với trí tuệ tò mò mãnh liệt. Khoa học dữ liệu là tất cả về sự ham học hỏi - đặt câu hỏi mới, khám phá mới và học hỏi những điều mới. Hãy hỏi các nhà khoa học dữ liệu bị ám ảnh bởi công việc của họ điều gì thúc đẩy họ trong công việc và họ sẽ không nói "tiền". Động lực thực sự là có thể sử dụng sự sáng tạo và sự khéo léo của họ để giải quyết các vấn đề khó khăn và không ngừng kích thích trí tò mò của họ. Việc thu được các lần đọc phức tạp từ dữ liệu không chỉ đơn thuần là quan sát, mà còn là khám phá ra "sự thật" nằm bên dưới bề mặt. Giải quyết vấn đề không phải là một nhiệm vụ, mà là một hành trình kích thích trí tuệ để tìm ra giải pháp. Các nhà khoa học dữ liệu đam mê những gì họ làm và gặt hái được sự hài lòng tuyệt vời khi chấp nhận thử thách. Đào tạo Có một quan niệm sai lầm rõ ràng ở đó rằng bạn cần có bằng Tiến sĩ khoa học hoặc toán học để trở thành một nhà khoa học dữ liệu hợp pháp. Quan điểm đó bỏ sót quan điểm rằng khoa học dữ liệu là đa ngành. Học tập trung cao độ trong học thuật chắc chắn hữu ích, nhưng không đảm bảo rằng sinh viên tốt nghiệp có đầy đủ kinh nghiệm và khả năng để thành công. Ví dụ: Một nhà thống kê bằng Tiến sĩ có thể vẫn cần phải có nhiều kỹ năng lập trình và tích lũy kinh nghiệm kinh doanh, để hoàn thành bộ ba. Trên thực tế, khoa học dữ liệu là một ngành học tương đối mới và đang phát triển đến mức các trường đại học đã không bắt kịp trong việc phát triển các chương trình cấp bằng khoa học dữ liệu toàn diện - có nghĩa là không ai có thể thực sự tuyên bố đã "làm hết việc học" để trở thành một nhà khoa học dữ liệu. Phần lớn đào tạo đến từ đâu? Sự tò mò về trí tuệ không thể khuất phục của các nhà khoa học dữ liệu đã thúc đẩy họ có động cơ phản ứng tự động, được thúc đẩy để tự học các kỹ năng phù hợp, được hướng dẫn bởi quyết tâm của chính họ.