데이터 정리는 데이터 분석 과정에서 가장 중요한 부분이며, 큰 데이터 분석 과정에서도 마찬가지입니다. 작은 데이터 시대에 데이터 정리에는 데이터 정리, 데이터 변환, 분류 인코딩 및 디지털 인코딩이 포함되며, 이 중 데이터 청소가 가장 중요한 위치를 차지합니다. 즉, 데이터 일관성을 확인하고 유효하지 않은 값과 누락된 값을 처리하는 것입니다. 빅 데이터 시대에는 이러한 작업이 약화되었습니다. 큰 데이터의 일부 알고리즘과 응용 프로그램에서는 큰 데이터의 다양화로 인해 데이터 청소가 거의 수행되지 않습니다. 다소 부정확하다. 그러나 여전히 데이터 변환 및 인코딩 프로세스가 필요합니다. 다음은 큰 데이터 분석의 텍스트 분류를 예로 들어 큰 데이터 정리를 분석하는 과정입니다.
이 예에서는 mahout 을 큰 데이터 분석 소프트웨어로 사용하고, 텍스트 분류 알고리즘은 new Bayes 이고, 분류 객체는 다른 범주의 뉴스 데이터입니다.
웹 크롤러를 사용하여 매시간 여러 뉴스 웹 사이트에서 지속적으로 데이터를 얻을 때 얻은 데이터는 텍스트 데이터, 즉 구조화되지 않은 데이터입니다. 이 데이터는 세척할 필요는 없지만 mahout 에서 구현된 소박한 베이시안 알고리즘에 들어갈 때는 변환이 필요합니다. 변환은 크게 두 단계로 나뉩니다.
1. 데이터 직렬화
대량의 텍스트 데이터 세트로 인해 각 뉴스 항목마다 하나의 문서를 차지하며 작은 파일은 무수히 많습니다. Mahout 은 Hadoop 의 HDFS 에서 실행되므로 HDFS 는 큰 파일을 위해 설계되었습니다. 만약 우리가 이 무한한 수의 작은 서류들을 모두 복사한다면, 매우 부적절하다. 상상해 보세요: 1000 만 편의 뉴스 문장 분류, 1000w 개 파일 복사 하시겠습니까? 이로 인해 HDFS 터미널 실행 이름 노드가 충돌합니다.
따라서 Mahout 은 SequenceFile 을 기본 데이터 교환 형식으로 사용합니다. Mahout 에 내장된 파서를 호출하여 모든 디렉토리와 파일을 스캔하고, 각 파일을 디렉토리 이름으로 시작하고, 그 뒤에 문서의 모든 단어가 오는 단일 행 텍스트로 변경하여 무한히 작은 파일을 직렬화된 큰 파일로 변환하는 것입니다. 그런 다음이 큰 파일을 HDFS 에 업로드하면 HDFS 분산 파일 시스템의 장점을 최대한 활용할 수 있습니다. 물론 이 변환 과정은 mahout 에 내장된 도구로 이루어지는데, 이때 빅 데이터 분석가는 모든 뉴스를 폴더에 넣고 mahout 에 내장된 분석기 명령을 실행하면 됩니다.
2. 텍스트 내용의 벡터화
간단히 말해서 텍스트 내용의 각 단어 (일부 접속사를 제거한 후) 를 데이터로 변환하는 것입니다. 복잡한 용어로는 벡터 공간 모델링 (VSM) 입니다. 이 프로세스는 각 단어에 문서 벡터에 있는 차원의 숫자인 숫자를 부여합니다. 이 작업이 mahout 에서 구현되면 빅 데이터 분석가는 명령 중 하나만 실행하면 텍스트 내용을 쉽게 벡터화할 수 있습니다.
이러한 벡터화된 데이터와 mahout 의 소박한 베네치아 알고리즘을 통해, 우리는 컴퓨터에 대한 일련의 규칙을 훈련시킬 수 있으며, 이 규칙에 따라 기계는 후기에 수집한 뉴스 데이터를 자동으로 분류할 수 있다.
위의 텍스트 분류에 대한 대용량 데이터 정렬 프로세스를 통해 빅 데이터 시대의 데이터 정렬 프로세스는 더 이상 데이터의 정확성을 강조하지 않고 구조화되지 않은 데이터의 수량화를 강조한다는 것을 알 수 있습니다. 물론, 큰 데이터 분석 응용 프로그램마다 사용되는 알고리즘이 다르고, 데이터 정리 프로세스도 다르지만, 대체로 큰 데이터 분석의 데이터 정리는 작은 데이터 시대의 정확성과는 달리 더욱 넓어지고 있습니다.
변쇼가 여러분을 위해 공유하는 빅 데이터 분석의 프로세스 분석입니다. 더 많은 정보는 글로벌 아이비리그가 더 많은 건품을 공유하는 것에 집중할 수 있다.