1 #Region "Microsoft.VisualBasic::715a8d06e4bf072eea97d5a9abcfae8a, Microsoft.VisualBasic.Core\Extensions\Doc\LargeTextFile.vb"
2
3     ' Author:
4     
5     '       asuka (amethyst.asuka@gcmodeller.org)
6     '       xie (genetics@smrucc.org)
7     '       xieguigang (xie.guigang@live.com)
8     
9     ' Copyright (c) 2018 GPL3 Licensed
10     
11     
12     ' GNU GENERAL PUBLIC LICENSE (GPL3)
13     
14     
15     ' This program is free software: you can redistribute it and/or modify
16     ' it under the terms of the GNU General Public License as published by
17     ' the Free Software Foundation, either version 3 of the License, or
18     ' (at your option) any later version.
19     
20     ' This program is distributed in the hope that it will be useful,
21     ' but WITHOUT ANY WARRANTY; without even the implied warranty of
22     ' MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
23     ' GNU General Public License for more details.
24     
25     ' You should have received a copy of the GNU General Public License
26     ' along with this program. If not, see <http://www.gnu.org/licenses/>.
27
28
29
30     ' /********************************************************************************/
31
32     ' Summaries:
33
34     Module LargeTextFile
35     
36     '     Function: __textPartitioning, IteratesStream, IteratesTableData, Merge, Peeks
37     '               Tails, TextPartition
38     
39     ' /********************************************************************************/
40
41 #End Region
42
43 Imports System.IO
44 Imports System.Runtime.CompilerServices
45 Imports System.Text
46 Imports Microsoft.VisualBasic.CommandLine.Reflection
47 Imports Microsoft.VisualBasic.Scripting.MetaData
48 Imports Microsoft.VisualBasic.Text
49
50 ''' <summary>
51 ''' Wrapper for the file operations.
52 ''' </summary>
53 ''' <remarks></remarks>
54 <[Namespace]("Large_Text_File")>
55 Public Module LargeTextFile
56
57     ''' <summary>
58     ''' Iterates read all lines in a very large text file, using for loading a very large size csv/tsv file
59     ''' </summary>
60     ''' <param name="path$">file path</param>
61     ''' <param name="title$">The header line of this large size csv/tsv file.</param>
62     ''' <param name="skip%">Skip n lines, then start to populate data lines.</param>
63     ''' <param name="encoding">Text file encoding.</param>
64     ''' <returns></returns>
65     <Extension>
66     Public Function IteratesTableData(path$, ByRef title$, Optional skip% = -1, Optional encoding As Encodings = Encodings.ASCII) As IEnumerable(Of String)
67         Using reader As StreamReader = path.OpenReader(encoding.CodePage)
68             Dim i% = skip
69
70             ' skip lines
71             Do While i > 0
72                 reader.ReadLine()
73                 i -= 1
74             Loop
75
76             title = reader.ReadLine
77
78             Return reader.IteratesStream
79         End Using
80     End Function
81
82     <Extension>
83     Public Iterator Function IteratesStream(s As StreamReader) As IEnumerable(Of String)
84         Do While Not s.EndOfStream
85             Yield s.ReadLine
86         Loop
87     End Function
88
89     <ExportAPI("Partitioning")>
90     Public Function TextPartition(data As IEnumerable(Of String)) As String()()
91         Dim maxSize As Double = New StringBuilder(1024 * 1024).MaxCapacity
92         Return __textPartitioning(data.ToArray, maxSize)
93     End Function
94
95     Private Function __textPartitioning(dat As String(), maxSize As DoubleAs String()()
96         Dim currentSize As Double = (From s As String In dat.AsParallel Select CDbl(Len(s))).Sum
97         If currentSize > maxSize Then
98             Dim SplitTokens = dat.Split(CInt(dat.Length / 2))
99             If SplitTokens.Length > 1 Then
100                 Return (From n In SplitTokens Select __textPartitioning(n, maxSize)).ToVector
101             Else
102                 Return SplitTokens
103             End If
104         Else
105             Return New String()() {dat}
106         End If
107     End Function
108
109     ''' <summary>
110     ''' 当一个文件非常大以致无法使用任何现有的文本编辑器查看的时候,可以使用本方法查看其中的一部分数据 
111     ''' </summary>
112     ''' <returns></returns>
113     ''' <remarks></remarks>
114     ''' 
115     <ExportAPI("Peeks")>
116     Public Function Peeks(path As String, length As IntegerAs String
117         Dim ChunkBuffer As Char() = New Char(length - 1) {}
118         Using Reader = FileIO.FileSystem.OpenTextFileReader(path)
119             Call Reader.ReadBlock(ChunkBuffer, 0, ChunkBuffer.Length)
120         End Using
121         Return New String(value:=ChunkBuffer)
122     End Function
123
124     ''' <summary>
125     ''' Peek the tails of a large text file.(尝试查看大文件的尾部的数据)
126     ''' </summary>
127     ''' <param name="path">If the file is not exists, then this function will returns nothing.</param>
128     ''' <param name="length">Peeks of the number of characters.(字符的数目)</param>
129     ''' <param name="encoding">Default value is <see cref="DefaultEncoding"/></param>
130     ''' <returns></returns>
131     ''' <remarks></remarks>
132     <ExportAPI("Tails")>
133     <Extension>
134     Public Function Tails(path$, <Parameter("characters""The number of the characters, not the bytes value.")> length%, Optional encoding As Encoding = NothingAs String
135         If Not path.FileExists Then
136             Return Nothing
137         Else
138             length *= 8
139         End If
140
141         Using reader As New FileStream(path, FileMode.Open)
142             If reader.Length < length Then
143                 length = reader.Length
144             End If
145
146             Dim chunkBuffer As Byte() = New Byte(length - 1) {}
147
148             Call reader.Seek(reader.Length - length, SeekOrigin.Begin)
149             Call reader.Read(chunkBuffer, 0, chunkBuffer.Length)
150
151             Dim value$ = (encoding Or DefaultEncoding).GetString(chunkBuffer)
152             Return value
153         End Using
154     End Function
155
156     <ExportAPI(".Merge"Info:="Please make sure all of the file in the target directory is text file not binary file.")>
157     Public Function Merge(<Parameter("Dir""The default directory parameter value is the current directory.")> Optional dir$ = "./"As String
158         Dim Texts = From file As String
159                     In FileIO.FileSystem.GetFiles(dir, FileIO.SearchOption.SearchAllSubDirectories, "*.*")
160                     Select FileIO.FileSystem.ReadAllText(file)
161         Dim Merged As String = String.Join(vbCr, Texts)
162         Return Merged
163     End Function
164 End Module